如何从具有非ASCII编码的PDF中剪切粘贴？

Question

如何从具有非ASCII编码的PDF中剪切粘贴？

7

我有一些PDF文件，尝试从Acrobat Reader中将它们包含的文本剪切并粘贴到HTML表单中。似乎其中一些文件使用（我怀疑）Unicode进行文本编码，因此当我尝试在Firefox中粘贴到HTML表单时，我得到的是带有十六进制字符的小框而不是可读文本。问题不在于PDF没有进行OCR处理-当我尝试在Acrobat Pro中进行处理时，它表示无法处理该文件，因为该文件已经包含可渲染文本。有没有什么方法来解决这个问题？例如，我可以向表单添加一些javascript以执行转换吗？

- Steve

9个回答

5

我遇到了同样的问题...在这里有详细解释：http://forums.adobe.com/thread/915012 我的解决办法是使用Acrobat的导出工具将pdf转换为Word，然后从中提取我需要的信息。

虽然很烦人，但这个方法有效。

另一个解决办法是将pdf转换为图像（jpeg，png等），然后运行OCR过程。

- Piotr002

3

在Acrobat中选择文本。
右键单击，从上下文菜单中选择“带格式复制”。
等待进度条处理文本。
粘贴到Word文档中。

- David

2

很可能该文本包含能够正确复制但您的浏览器无法显示的字符，这是由于缺乏适合的字体。PDF文档可能包含嵌入的字体，因此Adobe Reader可以正常显示字符，但浏览器无法访问这些字体。

您可以尝试在此处复制并粘贴字符来检查是否是这个原因（无论如何，这可能是有用的问题信息）。您还可以下载和安装Code200x字体，其中包含您通常可以遇到的任何字符。（虽然不能保证，但可能Firefox会在需要时自动使用这些字体。）

- Jukka K. Korpela

尝试了字体，没有帮助。而且，当我将字符粘贴到IDE（Komodo）中时，它说默认编码cp-1252不适用，当我将编码更改为Unicode时，它变得正常了。 - Steve

1

我们曾经遇到过类似的问题，试图从PDF文件中复制/粘贴西里尔文到Excel中。

我们找到的最简单的解决方案是使用浏览器（Chrome，Mozilla或Opera）打开.pdf并将文本复制/粘贴到Word，Excel中。

如预期所料，它在IE中无法正常工作。

- MKamenova

1

如果以上方法都不适用于您，就像对我来说一样，您可以对pdf截图并使用Google Lens（在安卓手机上）打开它，然后进入文本部分，AI会自动检测文本，如果需要，您可以复制它。

- Luka Kavteli

0

我遇到了同样的问题，但是通过在 Web 浏览器（在我的情况下是 Chrome）中打开 PDF 文件解决了它。在 Chrome 中复制和粘贴非 ASCII 编码的内容可以正常工作。

- user5762406

0

您可以将Acrobat导出为JPEG格式，然后在Acrobat（而非Reader）中打开JPEG文件，运行OCR工具。从那里，您应该能够复制/粘贴。

- Kermit Russell

0

我正在使用Nitro Pdf。首先，我从pdf创建了600 dpi的图像。然后我在一个新的pdf文件中打开图像。然后从“审阅”选项卡中，我使用OCR选项。这将带我到另一个标准编码的pdf文件，我可以复制和粘贴文本。

- Sami Asrar

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Bobrovsky · Accepted Answer

您能否将从文件复制的文本粘贴到其他程序（如记事本、Word或其他程序）中？

有些PDF文件没有包含关键信息，这些信息对于成功提取其中的文本非常重要，即使使用Adobe工具也不行。基本上，这些文件不包含字形到字符映射信息。

这样的文件可以正常显示和打印，但无法正确拷贝/提取其中的文本。

例如，使用"最小文件大小"预设时，Distiller会生成此类文件。