PDF: 如何覆盖/修复扫描图像+OCR文件中的可搜索文本?

9
我正在尝试在一份PDF文件上创建索引,该文件是我从旧手稿扫描的图像中通过Adobe Acrobat Pro进行字符识别的。问题是一些单词之间的间距不正确,因此OCR出现了缺陷。我使用了“查找和修复可疑工具”,但仍存在问题。
例如...原始文档中的文本“FOR EXAMPLE”之间的间隔不正常(当然包括其图像),因此Adobe将其读成三个单词“FOR EX AMPLE”,结果索引条目为单词“ample”,如果不知道更好的话,看起来完全有效。这是我已经发现的文件中几个类似的问题之一(还有更多页面需要校对)。
我如何修正基础OCR文字,以便在创建的索引和搜索文档时都包含正确的信息?
PS:我不能仅切换到纯OCR文本版本的文档,因为手稿是技术性的,并且与文本相关联的图纸很多。我需要保留图像并更改“隐藏”的可搜索文本。
1个回答

0

我发现这个答案建议使用ABBYY FineReader 14(商业软件;我与其无关)。看起来它可以处理编辑,之后我假设您现有的工作流程会处理索引。这里是另一个回答,提供了更多的工作流细节(尽管是三年前的)。

另外,这个问题有答案建议使用Perl的CAM::PDFpdftk


我看了一些关于 ABBYY FineReader 14 的教程视频,它似乎可以解决我的问题。我打算下载试用版来确认。不幸的是,如果它能胜任这项工作,那么我将不得不再花费近200美元购买Adobe旗舰产品中本应该包含的功能。这真的很令人恼火。无论如何,感谢您的回答,赏金归您所有。 - O.M.Y.
@O.M.Y. 非常感谢你,祝你工作顺利!这绝对是令人沮丧的情况 - 我祝你一切顺利。 - cxw

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接