HTML解析与正则表达式的比较

Question

3

我有一个结构良好的固定HTML源，传入的数据清晰且很小，只包含一小部分div列表。我知道可以使用HTML解析器来解析HTML，但这似乎是一种特殊情况，我不确定应该使用哪种解析器。以下是问题条件：

任何建议都很宝贵，那我该怎么办呢？

- Hüseyin Zengin

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alecxe · Accepted Answer

我仍然建议使用HTML解析器，因为至少有一个特定的数据格式和专门理解该格式的工具。

如果性能很重要，可以使用非常快速的lxml包。对于HTML，请使用lxml.html。

您还可以使用令人惊叹的BeautifulSoup包，并让它在幕后使用lxml解析器。此外，如果您需要解析的数据位于HTML文档的特定部分，则可以通过请求BeautifulSoup仅解析HTML文档的相关部分来获得性能提升，请参见：仅解析文档的一部分。

为了遵循HTML + regex主题的传统，这里提供一个著名的主题参考，介绍为什么不应该使用正则表达式解析HTML：