PHP的HTML文本提取

3

目前市面上有很多用于提取HTML文本的工具,主要是针对Java或Python开发的。我经常遇到的一个是boilerpipe。有一些API也可用,而且有些看起来效果不错。但是,有没有人知道PHP中是否有类似的工具呢?


定义“HTML文本提取”。您是否正在寻找DOM - DaveRandom
不,就像你知道的,在IOS上他们有“阅读器”,它会去掉网站上的所有垃圾,比如广告、导航等,只显示内容,这样阅读起来更容易。这就是我的意思。 - Bill
2个回答

0

0

DomDocument 是 PHP 中的一个类,如果您有 libxml 支持,它可以解析 HTML 文档并让您迭代它们或发出 XPath 查询以查找 DOM 树中的特定节点。这是理想的方法。

或者,如果文本足够简单且统一,您可以使用 preg_match() 使用 正则表达式 从数据中提取文本。


2
哦,你在这里冒险了。你知道的,如果你建议那个(你知道我在说什么),你会被批判的。一个标准链接要多久才会出现呢? - DaveRandom
@DaveRandom :) 是的,我知道你的意思。我尝试在这种情况下保持务实,因为有时它可能同样有效。 - drew010

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接