有没有一种一致的方法可以从PDF文件中提取表格? 有什么工具可用?
我目前为止做了什么:
- 我尝试使用
pdftotext
工具。 它有一个选项可以转换为HTML布局。
这个方法存在的问题:
- 表格信息在HTML输出中未保留
- 我期望看到
<table>
标签,但所有内容都在<p>
标签下。
PDF文档中是否会有标记来指示表格结构? 像HTML中的<table>
、<tr>
和<td>
这样的标记?
如果是“是”,对此的任何指针都将很有帮助。 如果是“否”,也需要确切的信息。
有没有一种一致的方法可以从PDF文件中提取表格? 有什么工具可用?
我目前为止做了什么:
pdftotext
工具。 它有一个选项可以转换为HTML布局。这个方法存在的问题:
<table>
标签,但所有内容都在<p>
标签下。PDF文档中是否会有标记来指示表格结构? 像HTML中的<table>
、<tr>
和<td>
这样的标记?
如果是“是”,对此的任何指针都将很有帮助。 如果是“否”,也需要确切的信息。
然而,你可以使用pdftotext -layout input.pdf output.txt
来将PDF打印成文本文件并保留原始布局。没有标签,但是使用一些巧妙的脚本(Perl / PHP / 任何语言),可以从表格中恢复数据。
如果你只处理一页,最好手动完成。但是,如果你(像我一样)需要处理数百或数千页,则这是最好的选择。我已经寻找了很长时间,没有发现比pdftotext更好的pdf转文本工具。
输出有些不一致,类似的PDF表格可能会产生不同的txt输出,但这会让你的编程稍微有些有趣。
Word 2013
的内置转换功能,并取得了良好的结果。单元格内的格式可能会有些混乱,但是正确整理单元格是一个不错的开始。 - Jonathan Lidbeck
pdftotext
和pdftohtml
。他将问题描述为“期望的表格标签,但所有内容都在 p 标签下”。 - Kurt Pfeifle