什么是将HTML文档中的表格转换为Excel可读文件的最佳方法?我希望这是一个命令行工具,可以在我的Mac上调用bash,因为我想批处理一堆HTML文件。 我知道我可以很容易地编写脚本来完成此操作,但正在寻找通用的现有工具,可以从命令行调用。我希望尽可能保留格式,但如果没有其他易于安装和设置的工具,则愿意退而使用CSV。
Excel可以读取/打开包含表格的HTML文档,无需转换。它会自动将表格单元格映射到工作表单元格。
请尝试以下操作:
<table> <tr> <th>Heading1</th> <th>Heading2</th> </tr> <tr> <td>R1, C1</td> <td>R1, C2</td> </tr> <tr> <td>R2, C1</td> <td>R2, C2</td> </tr> </table>
html2text应该可以工作,至少它应该能够生成一些你可以拾取为逗号分隔列表的东西(或者相当容易地将其破解成一个)。这里有很多与它相关的链接:
http://www.google.com/search?hl=en&q=html2text&btnG=Search
它有许多标志来控制输出的格式。试试看。
--杰夫