如何从具有非ASCII编码的PDF中剪切粘贴?

7

我有一些PDF文件,尝试从Acrobat Reader中将它们包含的文本剪切并粘贴到HTML表单中。似乎其中一些文件使用(我怀疑)Unicode进行文本编码,因此当我尝试在Firefox中粘贴到HTML表单时,我得到的是带有十六进制字符的小框而不是可读文本。问题不在于PDF没有进行OCR处理-当我尝试在Acrobat Pro中进行处理时,它表示无法处理该文件,因为该文件已经包含可渲染文本。有没有什么方法来解决这个问题?例如,我可以向表单添加一些javascript以执行转换吗?

9个回答

9

您能否将从文件复制的文本粘贴到其他程序(如记事本、Word或其他程序)中?

有些PDF文件没有包含关键信息,这些信息对于成功提取其中的文本非常重要,即使使用Adobe工具也不行。基本上,这些文件不包含字形到字符映射信息。

这样的文件可以正常显示和打印,但无法正确拷贝/提取其中的文本。

例如,使用"最小文件大小"预设时,Distiller会生成此类文件。


1
无论我把它粘贴到哪里——记事本、Word等,结果都是一样的。我想也许你说得对,这个问题可能与PDF文件有关。如果我在Acrobat Pro中打开此文件,复制其中一些文本,然后打开一个便笺并尝试粘贴文本,我会得到方框而不是字符。因此,即使Acrobat也无法处理此文本。 - Steve

5
我遇到了同样的问题...在这里有详细解释:http://forums.adobe.com/thread/915012 我的解决办法是使用Acrobat的导出工具将pdf转换为Word,然后从中提取我需要的信息。
虽然很烦人,但这个方法有效。
另一个解决办法是将pdf转换为图像(jpeg,png等),然后运行OCR过程。

3
  1. 在Acrobat中选择文本。
  2. 右键单击,从上下文菜单中选择“带格式复制”。
  3. 等待进度条处理文本。
  4. 粘贴到Word文档中。

2
很可能该文本包含能够正确复制但您的浏览器无法显示的字符,这是由于缺乏适合的字体。PDF文档可能包含嵌入的字体,因此Adobe Reader可以正常显示字符,但浏览器无法访问这些字体。
您可以尝试在此处复制并粘贴字符来检查是否是这个原因(无论如何,这可能是有用的问题信息)。您还可以下载和安装Code200x字体,其中包含您通常可以遇到的任何字符。(虽然不能保证,但可能Firefox会在需要时自动使用这些字体。)

尝试了字体,没有帮助。而且,当我将字符粘贴到IDE(Komodo)中时,它说默认编码cp-1252不适用,当我将编码更改为Unicode时,它变得正常了。 - Steve

1
我们曾经遇到过类似的问题,试图从PDF文件中复制/粘贴西里尔文到Excel中。
我们找到的最简单的解决方案是使用浏览器(Chrome,Mozilla或Opera)打开.pdf并将文本复制/粘贴到Word,Excel中。
如预期所料,它在IE中无法正常工作。

1

如果以上方法都不适用于您,就像对我来说一样,您可以对pdf截图并使用Google Lens(在安卓手机上)打开它,然后进入文本部分,AI会自动检测文本,如果需要,您可以复制它。


0

我遇到了同样的问题,但是通过在 Web 浏览器(在我的情况下是 Chrome)中打开 PDF 文件解决了它。 在 Chrome 中复制和粘贴非 ASCII 编码的内容可以正常工作。


0

您可以将Acrobat导出为JPEG格式,然后在Acrobat(而非Reader)中打开JPEG文件,运行OCR工具。从那里,您应该能够复制/粘贴。


0

我正在使用Nitro Pdf。首先,我从pdf创建了600 dpi的图像。然后我在一个新的pdf文件中打开图像。然后从“审阅”选项卡中,我使用OCR选项。这将带我到另一个标准编码的pdf文件,我可以复制和粘贴文本。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接