PDF: 如何覆盖/修复扫描图像+OCR文件中的可搜索文本？

Question

9

我正在尝试在一份PDF文件上创建索引，该文件是我从旧手稿扫描的图像中通过Adobe Acrobat Pro进行字符识别的。问题是一些单词之间的间距不正确，因此OCR出现了缺陷。我使用了“查找和修复可疑工具”，但仍存在问题。

例如...原始文档中的文本“FOR EXAMPLE”之间的间隔不正常（当然包括其图像），因此Adobe将其读成三个单词“FOR EX AMPLE”，结果索引条目为单词“ample”，如果不知道更好的话，看起来完全有效。这是我已经发现的文件中几个类似的问题之一（还有更多页面需要校对）。

我如何修正基础OCR文字，以便在创建的索引和搜索文档时都包含正确的信息？

PS：我不能仅切换到纯OCR文本版本的文档，因为手稿是技术性的，并且与文本相关联的图纸很多。我需要保留图像并更改“隐藏”的可搜索文本。

- O.M.Y.

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cxw · Answer 1

我发现这个答案建议使用ABBYY FineReader 14（商业软件；我与其无关）。看起来它可以处理编辑，之后我假设您现有的工作流程会处理索引。这里是另一个回答，提供了更多的工作流细节（尽管是三年前的）。

另外，这个问题有答案建议使用Perl的CAM::PDF和pdftk。