PDF数据提取出现符号/乱码问题？

Question

3

我有一个叫做PDF2XL的软件，通常用于从PDF文件中提取数据表格。我以前已经使用过数百个文件。但是这个文件给出了一堆我无法正确复制和粘贴到文本框里的无意义输出，其中混杂了各种unicode怪异字符。如果像平常一样复制到excel/notepad中，我会得到同样的问题。

我猜测这可能与PDF文件中损坏的字符编码头有关？如何更改它？我正在使用Windows系统，没有可以编辑PDF文件的软件，如果需要编辑/重新保存，请推荐一个免费的软件来实现操作。

谢谢！

- Codemonkey

请问您可否分享一个文件链接？我会尝试找出问题所在。 - Bobrovsky

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Andrew Cash · Accepted Answer

越来越多的PDF文件使用了子集字体，这基本上是一种自定义编码。通常，PDF中的字体描述应该有一个ToUnicode表，以允许文本提取解码字体编码并返回正确的文本。

一些PDF制作人故意这样做，以防止像财务报告之类的东西进行简单的PDF文本提取。如果只有一个字体，那么您可以手动解码字体，但是根据我的经验，我看到PDF具有多个随机编码，这使得几乎不可能自动解码。

测试这些类型的PDF的一种方法是在Acrobat中打开文件，选择一些文本，将其复制并粘贴到记事本中。如果文本是乱码，则PDF正在使用子集字体，您无法做更多的事情。如果Acrobat无法正确提取文本，则没有其他办法可以解决。它可能就像一张象形文字页。