我想要编写一段代码,从新闻网站中提取主要新闻。新闻网站包含主要新闻、广告、评论、版权声明等内容,因此我只想获取类似boilerpipe中已完成的主要新闻提取功能,但我想知道如何实现。
所以我想了解如何进行此项工作的过程。
Sudhanshu
我想要编写一段代码,从新闻网站中提取主要新闻。新闻网站包含主要新闻、广告、评论、版权声明等内容,因此我只想获取类似boilerpipe中已完成的主要新闻提取功能,但我想知道如何实现。
所以我想了解如何进行此项工作的过程。
Sudhanshu
http://code.google.com/p/boilerpipe/
这应该为您提供了一个相当全面的信息集,介绍了它是如何工作的以及您如何在您的情况下应用它。祝好,我建议你试试htmlcleaner。
HTMLCleaner是一个Java库,用于安全地解析和转换在Web上找到的任何HTML为格式良好的XML。它被设计成小巧、快速、灵活和独立的。HtmlCleaner可以在Java代码中使用,也可以作为命令行工具或Ant任务使用。解析的结果是轻量级的文档对象模型,可以轻松地转换为标准如DOM或JDom,或以各种方式(紧凑、漂亮打印等)序列化为XML输出。
你可以使用XPath
与htmlcleaner获取xml/html标签内的内容。这里有一个不错的例子Xpath Example