从新闻文章网页中提取主要内容(最高文本密度)

6

我想要编写一段代码,从新闻网站中提取主要新闻。新闻网站包含主要新闻、广告、评论、版权声明等内容,因此我只想获取类似boilerpipe中已完成的主要新闻提取功能,但我想知道如何实现。

所以我想了解如何进行此项工作的过程。

Sudhanshu

4个回答

8
boilerpipe网站包含源代码、快速入门指南、原始科学论文链接以及相应的会议演示视频。

http://code.google.com/p/boilerpipe/

这应该为您提供了一个相当全面的信息集,介绍了它是如何工作的以及您如何在您的情况下应用它。祝好,
Christian

2
我们尝试了很多开源爬虫,比如Readability、Beautiful Soup等等,但在测试Diffbot API之后,我们决定在AppMarkt中使用它。它快速地从各种语言中提取新闻文章。

0

JSOUP 提供了解析 HTML 的 API


0

我建议你试试htmlcleaner

HTMLCleaner是一个Java库,用于安全地解析和转换在Web上找到的任何HTML为格式良好的XML。它被设计成小巧、快速、灵活和独立的。HtmlCleaner可以在Java代码中使用,也可以作为命令行工具或Ant任务使用。解析的结果是轻量级的文档对象模型,可以轻松地转换为标准如DOM或JDom,或以各种方式(紧凑、漂亮打印等)序列化为XML输出。

你可以使用XPath与htmlcleaner获取xml/html标签内的内容。这里有一个不错的例子Xpath Example


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接