我有一些PDF文件,尝试从Acrobat Reader中将它们包含的文本剪切并粘贴到HTML表单中。似乎其中一些文件使用(我怀疑)Unicode进行文本编码,因此当我尝试在Firefox中粘贴到HTML表单时,我得到的是带有十六进制字符的小框而不是可读文本。问题不在于PDF没有进行OCR处理-当我尝试在Acrobat Pro中进行处理时,它表示无法处理该文件,因为该文件已经包含可渲染文本。有没有什么方法来解决这个问题?例如,我可以向表单添加一些javascript以执行转换吗?
您能否将从文件复制的文本粘贴到其他程序(如记事本、Word或其他程序)中?
有些PDF文件没有包含关键信息,这些信息对于成功提取其中的文本非常重要,即使使用Adobe工具也不行。基本上,这些文件不包含字形到字符映射信息。
这样的文件可以正常显示和打印,但无法正确拷贝/提取其中的文本。
例如,使用"最小文件大小"预设时,Distiller会生成此类文件。
如果以上方法都不适用于您,就像对我来说一样,您可以对pdf截图并使用Google Lens(在安卓手机上)打开它,然后进入文本部分,AI会自动检测文本,如果需要,您可以复制它。
我遇到了同样的问题,但是通过在 Web 浏览器(在我的情况下是 Chrome)中打开 PDF 文件解决了它。 在 Chrome 中复制和粘贴非 ASCII 编码的内容可以正常工作。
您可以将Acrobat导出为JPEG格式,然后在Acrobat(而非Reader)中打开JPEG文件,运行OCR工具。从那里,您应该能够复制/粘贴。
我正在使用Nitro Pdf。首先,我从pdf创建了600 dpi的图像。然后我在一个新的pdf文件中打开图像。然后从“审阅”选项卡中,我使用OCR选项。这将带我到另一个标准编码的pdf文件,我可以复制和粘贴文本。