我正在尝试在一份PDF文件上创建索引,该文件是我从旧手稿扫描的图像中通过Adobe Acrobat Pro进行字符识别的。问题是一些单词之间的间距不正确,因此OCR出现了缺陷。我使用了“查找和修复可疑工具”,但仍存在问题。
例如...原始文档中的文本“FOR EXAMPLE”之间的间隔不正常(当然包括其图像),因此Adobe将其读成三个单词“FOR EX AMPLE”,结果索引条目为单词“ample”,如果不知道更好的话,看起来完全有效。这是我已经发现的文件中几个类似的问题之一(还有更多页面需要校对)。
我如何修正基础OCR文字,以便在创建的索引和搜索文档时都包含正确的信息?
PS:我不能仅切换到纯OCR文本版本的文档,因为手稿是技术性的,并且与文本相关联的图纸很多。我需要保留图像并更改“隐藏”的可搜索文本。
例如...原始文档中的文本“FOR EXAMPLE”之间的间隔不正常(当然包括其图像),因此Adobe将其读成三个单词“FOR EX AMPLE”,结果索引条目为单词“ample”,如果不知道更好的话,看起来完全有效。这是我已经发现的文件中几个类似的问题之一(还有更多页面需要校对)。
我如何修正基础OCR文字,以便在创建的索引和搜索文档时都包含正确的信息?
PS:我不能仅切换到纯OCR文本版本的文档,因为手稿是技术性的,并且与文本相关联的图纸很多。我需要保留图像并更改“隐藏”的可搜索文本。