所以我正在尝试编写一个程序,可以从不同的文章中收集特定的信息并将它们组合起来。我遇到麻烦的步骤是从网页中提取文章。我想知道是否有java库/方法可以提取网页中的文本?我还发现了这个产品:http://www.diffbot.com/products/automatic/article/,我想知道您是否认为这是可行的方式?如果是,能否有人指向一个Java实现-似乎存在但我无法找到。澄清一下-我更多地是在寻找检测html dom树中可能位于文章位置的文本块的算法/库/方法。就像Safari的阅读器功能。如果您认为这在Python之类的语言中要容易得多,请说一声-虽然我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用Java框架),我可以尝试使用Python脚本,但只有在您建议Python是正确的方式时才会这样做。