从命令行中提取HTML表格到Excel

4
什么是将HTML文档中的表格转换为Excel可读文件的最佳方法?我希望这是一个命令行工具,可以在我的Mac上调用bash,因为我想批处理一堆HTML文件。 我知道我可以很容易地编写脚本来完成此操作,但正在寻找通用的现有工具,可以从命令行调用。我希望尽可能保留格式,但如果没有其他易于安装和设置的工具,则愿意退而使用CSV。
2个回答

3

Excel可以读取/打开包含表格的HTML文档,无需转换。它会自动将表格单元格映射到工作表单元格。

请尝试以下操作:

  • 将下面的数据保存在一个扩展名为.html的文件中。
  • 用Excel打开该文件
<table>
<tr>
<th>Heading1</th>
<th>Heading2</th>
</tr>
<tr>
<td>R1, C1</td>
<td>R1, C2</td>
</tr>
<tr>
<td>R2, C1</td>
<td>R2, C2</td>
</tr>
</table>

-1

html2text应该可以工作,至少它应该能够生成一些你可以拾取为逗号分隔列表的东西(或者相当容易地将其破解成一个)。这里有很多与它相关的链接:

http://www.google.com/search?hl=en&q=html2text&btnG=Search

它有许多标志来控制输出的格式。试试看。

--杰夫


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接