哪些HTML解析器具有以下功能:
- 快速
- 线程安全
- 可靠且无错误
- 解析HTML和XML
- 处理错误的HTML
- 具有DOM实现
- 支持HTML4、JavaScript和CSS标签
- 相对简单的面向对象API
您认为哪个解析器更好?
谢谢。
哪些HTML解析器具有以下功能:
您认为哪个解析器更好?
谢谢。
请查看Web Harvest。它既是一个可供使用的库,也是一个数据提取工具。听起来这正是你想要做的。你可以创建XML脚本文件来指示抓取器从哪里以及如何提取所需信息。提供的GUI非常有用,能够快速测试脚本。
请查看项目示例页面,看看它是否适合你所要做的事情。
Apache Tika 是最佳选择。Apache 最近从现有项目中提取了许多子项目并将它们公开。Tika 是其中之一,曾经是 Apache Lucene 的一个组件。由于 Apache 的支持和声誉以及广泛使用的父项目 Lucene,它必定是一个非常好的选择。此外,它是开源的。
来自 Apache Tika 网站的简要介绍:
Apache Tika™ 工具包使用现有的解析器库检测和提取各种文档的元数据和结构化文本内容。
支持的格式有:
HyperText Markup Language XML and derived formats Microsoft Office document formats OpenDocument Format Portable Document Format Electronic Publication Format Rich Text Format Compression and packaging formats Text formats Audio formats Image formats Video formats Java class files and archives The mbox format
好的:
在Java中,像你所需的那样,没有太多好的HTML解析器可用,但这里有一些替代方案:http://java-source.net/open-source/html-parsers
其中很少有支持JavaScript的。实际上,我认为您将不得不使用Rhino(http://www.mozilla.org/rhino/)自己完成此部分。
我认为HTML Cleaner就是你要找的东西。在TheServerSide上看看它的公告,看看它与JTidy、TagSoup和NekoHtml相比如何。