如何通过编程方式检查HTML文档

Question

如何通过编程方式检查HTML文档

7

我有一个充满小型HTML文档的数据库，我需要通过编程将其中几个插入到PDF文件（使用iText）或Word文档（使用Aspose.Words）中。我需要保留HTML文档中的任何格式（在合理范围内，尊重<b>标签是必须的，类似<span style="blah">的CSS是可选的）。 iText和Aspose大致工作方式如下：

Document document = new Document( Size.A4, Aspect.PORTRAIT );

document.setFont( "Helvetica", 20, Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );

因此（我认为）我需要一种HTML解析器，可以检查字符串和样式以插入到我的文档中。

有人能推荐一个好的库或者合理的方法来解决这个问题吗？平台是Java。

- David

5个回答

1

如果HTML是“格式良好的XML”（XHTML），为什么不使用XML解析器（例如Xerces），然后编程检查DOM树。

- Vinze

0

Adobe Acrobat Pro 允许您通过 HTTP 抓取网站，并且在保留样式和布局方面表现出色。我没有从 API 方面使用过它，但值得一试。

- Diodeus

0

你最好直接获取一个从HTML到PDF或Word的组件，而不是尝试解析HTML文档并基于HTML自己复制格式。如果你想将HTML转换为PDF，并且你使用.Net，Winnovative提供了一个很好的解决方案。

- Kibbee

0

看看飞碟XHTML渲染器 - 它们可以将格式良好的XHTML文件呈现为PDF，并让您使用CSS控制输出。

- Tim Howland

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Craig Angus · Accepted Answer

"

HTMLparser 是一个好的 HTML 解析器。

我曾在一个项目中使用它来解析 HTML。

您可以编写自己的过滤器来解析 HTML，以获取您想要的内容，因此 <br> 标签不应该难以解析。

您可以使用 CssSelectorNodeFilter 来解析 CSS。

"