目前市面上有很多用于提取HTML文本的工具,主要是针对Java或Python开发的。我经常遇到的一个是boilerpipe。有一些API也可用,而且有些看起来效果不错。但是,有没有人知道PHP中是否有类似的工具呢?
目前市面上有很多用于提取HTML文本的工具,主要是针对Java或Python开发的。我经常遇到的一个是boilerpipe。有一些API也可用,而且有些看起来效果不错。但是,有没有人知道PHP中是否有类似的工具呢?
DomDocument 是 PHP 中的一个类,如果您有 libxml 支持,它可以解析 HTML 文档并让您迭代它们或发出 XPath 查询以查找 DOM 树中的特定节点。这是理想的方法。
或者,如果文本足够简单且统一,您可以使用 preg_match() 使用 正则表达式 从数据中提取文本。