PDF数据提取出现符号/乱码问题?

3
我有一个叫做PDF2XL的软件,通常用于从PDF文件中提取数据表格。我以前已经使用过数百个文件。但是这个文件给出了一堆我无法正确复制和粘贴到文本框里的无意义输出,其中混杂了各种unicode怪异字符。如果像平常一样复制到excel/notepad中,我会得到同样的问题。
我猜测这可能与PDF文件中损坏的字符编码头有关?如何更改它?我正在使用Windows系统,没有可以编辑PDF文件的软件,如果需要编辑/重新保存,请推荐一个免费的软件来实现操作。
谢谢!

请问您可否分享一个文件链接?我会尝试找出问题所在。 - Bobrovsky
1个回答

6
越来越多的PDF文件使用了子集字体,这基本上是一种自定义编码。通常,PDF中的字体描述应该有一个ToUnicode表,以允许文本提取解码字体编码并返回正确的文本。
一些PDF制作人故意这样做,以防止像财务报告之类的东西进行简单的PDF文本提取。如果只有一个字体,那么您可以手动解码字体,但是根据我的经验,我看到PDF具有多个随机编码,这使得几乎不可能自动解码。
测试这些类型的PDF的一种方法是在Acrobat中打开文件,选择一些文本,将其复制并粘贴到记事本中。如果文本是乱码,则PDF正在使用子集字体,您无法做更多的事情。如果Acrobat无法正确提取文本,则没有其他办法可以解决。它可能就像一张象形文字页。

1
刚又遇到了这个问题。谷歌搜索后,排名第一的结果是我自己在 Stack Overflow 上提出的问题。我认为解决方案是通过截屏并运行 OCR 软件来处理。 - Codemonkey
如果OCR识别结果不精确,你可以通过截图将PDF页面渲染为图像文件。 - Andrew Cash
你好,安德鲁,你怎么做到的?在这种情况下他们是这样做的,但知道这个可能会更好,也可能更容易。谢谢。 - Codemonkey

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接