从网页中提取文本（例如文章）的最佳方法

Question

从网页中提取文本（例如文章）的最佳方法

8

所以我正在尝试编写一个程序，可以从不同的文章中收集特定的信息并将它们组合起来。我遇到麻烦的步骤是从网页中提取文章。我想知道是否有java库/方法可以提取网页中的文本？我还发现了这个产品：http://www.diffbot.com/products/automatic/article/，我想知道您是否认为这是可行的方式？如果是，能否有人指向一个Java实现-似乎存在但我无法找到。澄清一下-我更多地是在寻找检测html dom树中可能位于文章位置的文本块的算法/库/方法。就像Safari的阅读器功能。如果您认为这在Python之类的语言中要容易得多，请说一声-虽然我的程序必须在Java中运行，因为它最终应该在服务器上运行（使用Java框架），我可以尝试使用Python脚本，但只有在您建议Python是正确的方式时才会这样做。

- Saad Attieh

我认为你要找的是一个网络爬虫，可以看一下这个问题（和答案）：https://dev59.com/enA75IYBdhLWcg3wm6ax - Mekswoll

新的Instapaper API现在可能是许多人的不错选择：https://www.instapaper.com/api - Jakub Kotowski

3个回答

3

我发现了一个极受好评的开源解决方案。 https://code.google.com/p/boilerpipe/ 这里有一篇关于不同文本抽取算法的评论： http://tomazkovacic.com/blog/122/evaluating-text-extraction-algorithms/ 看起来diffbot表现非常出色，但它不是开源的。因此，在开源方面，boilerpipe可能是一个不错的选择。

- Saad Attieh

给定的链接已失效。新链接为http://tomazkovacic.com/blog/2011/06/09/evaluating-text-extraction-algorithms/。 - Onur Uslu

-1

这并不是针对所有可能出现的格式错误的HTML的解决方案，但大多数情况下jtidy可以很好地清理HTML，并为您提供访问各种DOM节点的接口，从而访问节点内部的文本。

- lwi

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jakub Kotowski · Accepted Answer

请查看 Apache Tika，它是配合网络爬虫使用的工具，可以为您提取文本和元数据，并且支持多种输出格式。