如何通过编程方式检查HTML文档

7
我有一个充满小型HTML文档的数据库,我需要通过编程将其中几个插入到PDF文件(使用iText)或Word文档(使用Aspose.Words)中。我需要保留HTML文档中的任何格式(在合理范围内,尊重<b>标签是必须的,类似<span style="blah">的CSS是可选的)。 iTextAspose大致工作方式如下:
Document document = new Document( Size.A4, Aspect.PORTRAIT );

document.setFont( "Helvetica", 20, Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );

因此(我认为)我需要一种HTML解析器,可以检查字符串和样式以插入到我的文档中。
有人能推荐一个好的库或者合理的方法来解决这个问题吗?平台是Java。
5个回答

2
"

HTMLparser 是一个好的 HTML 解析器。

我曾在一个项目中使用它来解析 HTML。

您可以编写自己的过滤器来解析 HTML,以获取您想要的内容,因此 <br> 标签不应该难以解析。

您可以使用 CssSelectorNodeFilter 来解析 CSS。

"

这个建议让我在大约一个小时和100行左右的代码中构建了一个我想要的基本版本。你是赢家! - banjollity

1

如果HTML是“格式良好的XML”(XHTML),为什么不使用XML解析器(例如Xerces),然后编程检查DOM树。


0

Adobe Acrobat Pro 允许您通过 HTTP 抓取网站,并且在保留样式和布局方面表现出色。我没有从 API 方面使用过它,但值得一试。


0
你最好直接获取一个从HTML到PDF或Word的组件,而不是尝试解析HTML文档并基于HTML自己复制格式。如果你想将HTML转换为PDF,并且你使用.Net,Winnovative提供了一个很好的解决方案。

0

看看飞碟XHTML渲染器 - 它们可以将格式良好的XHTML文件呈现为PDF,并让您使用CSS控制输出。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接