使用Ghostscript从PDF中提取文本

Question

7

我正在使用Ghostscript 9.20从一个仅包含两行文本的PDF文档中提取文本：

Hello world…
A beautiful day!

应用的代码是：

gswin32c -sDEVICE=txtwrite -o output.txt input.pdf

然而，输出结果是：

  䠀攀氀氀漀 眀漀爀氀搀☠ 
  䄀 戀攀愀甀琀椀昀甀氀 搀愀礀℀

发生了什么事情，我该怎么解决？

- KitKat

PDF 中字体的编码不一定与普通 ASCII 或 UTF 编码有任何关系。 - Stefan Hegny

请检查您的“中文”文本的十六进制视图。它显示为“Hello world…਀ A beautiful day!”（其中਀是0x0A00，这可能是由于从屏幕上复制输出而出现的问题）。 - Jongware

那么，我该怎么修复我的代码？ - KitKat

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- KenS · Accepted Answer

在9.20版本中存在一个错误，影响到某些文本提取。并非全部文本，而是取决于输入文件，由于您没有提供该文件，因此无法确定您的特定输入文件是否受到影响。

要解决这个问题，您可以：

从我们的Git存储库克隆Ghostscript，构建和测试最新代码。
等待下一个发布（三月份）并测试它。
提交错误报告，有人会查看它。虽然这不会真正帮助您。如果已经修复了它，那么您必须选择1或2。如果还没有修复，则需要等待修复，然后执行1或2，但至少您已经帮助改进了产品。