从新闻文章网页中提取主要内容（最高文本密度）

Question

从新闻文章网页中提取主要内容（最高文本密度）

javatexthtml-parsinghtml

6

所以我想了解如何进行此项工作的过程。

Sudhanshu

- Sudhanshu Gupta

4个回答

2

我们尝试了很多开源爬虫，比如Readability、Beautiful Soup等等，但在测试Diffbot API之后，我们决定在AppMarkt中使用它。它快速地从各种语言中提取新闻文章。

- Andrei Bourdine

0

JSOUP 提供了解析 HTML 的 API

- Allan

0

我建议你试试htmlcleaner。

HTMLCleaner是一个Java库，用于安全地解析和转换在Web上找到的任何HTML为格式良好的XML。它被设计成小巧、快速、灵活和独立的。HtmlCleaner可以在Java代码中使用，也可以作为命令行工具或Ant任务使用。解析的结果是轻量级的文档对象模型，可以轻松地转换为标准如DOM或JDom，或以各种方式（紧凑、漂亮打印等）序列化为XML输出。

你可以使用XPath与htmlcleaner获取xml/html标签内的内容。这里有一个不错的例子Xpath Example

- RanRag

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Christian Kohlschütter · Accepted Answer

boilerpipe网站包含源代码、快速入门指南、原始科学论文链接以及相应的会议演示视频。

http://code.google.com/p/boilerpipe/

这应该为您提供了一个相当全面的信息集，介绍了它是如何工作的以及您如何在您的情况下应用它。祝好，

Christian