从网页中提取文本(例如文章)的最佳方法

8
所以我正在尝试编写一个程序,可以从不同的文章中收集特定的信息并将它们组合起来。我遇到麻烦的步骤是从网页中提取文章。我想知道是否有java库/方法可以提取网页中的文本?我还发现了这个产品:http://www.diffbot.com/products/automatic/article/,我想知道您是否认为这是可行的方式?如果是,能否有人指向一个Java实现-似乎存在但我无法找到。澄清一下-我更多地是在寻找检测html dom树中可能位于文章位置的文本块的算法/库/方法。就像Safari的阅读器功能。如果您认为这在Python之类的语言中要容易得多,请说一声-虽然我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用Java框架),我可以尝试使用Python脚本,但只有在您建议Python是正确的方式时才会这样做。

我认为你要找的是一个网络爬虫,可以看一下这个问题(和答案):https://dev59.com/enA75IYBdhLWcg3wm6ax - Mekswoll
新的Instapaper API现在可能是许多人的不错选择:https://www.instapaper.com/api - Jakub Kotowski
3个回答

3
请查看 Apache Tika,它是配合网络爬虫使用的工具,可以为您提取文本和元数据,并且支持多种输出格式。

3

给定的链接已失效。新链接为http://tomazkovacic.com/blog/2011/06/09/evaluating-text-extraction-algorithms/。 - Onur Uslu

-1

这并不是针对所有可能出现的格式错误的HTML的解决方案,但大多数情况下jtidy可以很好地清理HTML,并为您提供访问各种DOM节点的接口,从而访问节点内部的文本。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接