如何将PDF文件转换为电子表格

20

我一整天都在尝试将包含圣保罗交通流的几个.pdf文件转换成MS Office Excel或Ubuntu中的LibreOffice Calc这样的电子表格。当我使用LibreOffice Calc打开.pdf文件时,它会自动打开LibreOffice Draw,而无法得到电子表格。

我发现最有前途的方法是这里提到的pdftotext。使用此方法后,我可以在LibreOffice Calc中获得表格,但需要手动调整列宽。

我的问题是我有很多.pdf文件,如果一个一个手动处理的话,需要花费很长时间。

是否有更好的方法?


可能 OpenOffice / LibreOffice 的无界面选项可以帮助您。 - TeTeT
4个回答

36

另一个选项是使用Okular(http://okular.kde.org)。 它有表格选择工具(Ctrl+5)。 您可以选择表格,添加其他行和列,并将结果表格复制到剪贴板中。 对我来说效果很好。


19

Tabula 可以运行良好。由于 PDF 格式不易从中提取结构化信息,因此并非总是可行。


11
也许对你来说 -layout 选项会很有用。设置此选项后,pdftotext 将尝试在生成的文本文件中保留列布局。
现在,您可以使用适当的导入设置将文本文件导入到 LibreOffice Calc 中。 在 Calc 中打开 txt 文件时,会询问如何解析文件内容(见下方截图)。 在分隔符选项下,选择 [separated by] SpaceMerge Delimiters 选项,这样 Calc 就能够恢复列结构(假设单元格数据不包含空格)。

text import into calc


谢谢@TeTeT和@tohuwawohu,但是并没有太大帮助,因为我需要手动为每个文件添加字段。这里是一个txt文件的副本。顺便说一下,当我使用pdftotext时,我使用了以下命令: pdftotext -layout pg_0014.pdf pg_0014.txt - Sergio
好的,我明白了。源PDF文件也可以在线获取。它有近200页,包含许多表格。如果没有使用专业的pdf-to-calc(pdf-to-excel)解决方案的方法,您只能尝试并询问CETSP人员是否会向您发送原始的winword文件。无论如何,您仍然需要手动将每个表格导入calc中。也许原始数据也是可用的。 - tohuwawohu
我尝试通过透明度系统多次向 CETSP 提问,但都没有得到回答。好吧,我会尝试使用 Windows。谢谢! - Sergio

4

有一个叫做Able2Extract的工具可以帮您实现最小误差的需求


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接