用于将HTML转换为格式化文本的轻量级HTML解析器？

Question

用于将HTML转换为格式化文本的轻量级HTML解析器？

3

我正在寻找一款轻量级的HTML解析器，用于将HTML转换成格式化文本。例如：

<html>
<body>
<a href="http://www.google.com/">Google</a>
<img src="http://images.google.com/intl/en_us/images/logos/images_logo.gif" alt="Google image logo" />
<ol>
<li>first</li>
<li>second</li>
</ol>
<ul>
<li>apple</li>
<li>orange</li>
</ul>
<table><tr><td>cell a</td><td>&nbsp;</td><td>cell b</td></tr><tr><td>cell c</td><td>cell d</td><td>cell e</td></tr><table>

</body>
</html>

into:

Google (link:http://www.google.com/) (img:Google images logo)

1. first
2. second

- apple
- orange

cell a(tab) (tab)cell b
cell c(tab)cell d(tab)cell e

使用XML/XSLT库来完成这个任务有些过度了。

- Roy

2个回答

0

我最终选择了htmlcxx来解决这个问题。它足够轻量级。

- Roy

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- schnaader · Accepted Answer

你可以查看开源文本浏览器（如lynx）的源代码。