文本作为图像和图形作为图像之间的区别

3
这个问题似乎很奇怪,但我需要问一下,因为当我比较文本作为图像和图形作为图像时,我看到了非常有趣的输出。
理想情况下,我正在寻找一种工具或算法来比较两个pdf文件,生成突出显示它们之间差异的输出结果。
在pdf中存在将文本转换为图像格式的可能性(将纸张上的传统文本转换为pdf)。
我们正在迁移这些传统的pdf文件,并最终将其与传统和转换后的pdf输出进行比较。
我正在评估几个工具,如Adobe dc pro、i-net pdfc和power pdf等,用于比较两个pdf文件。
在评估过程中,我能够看到图形图像在pdf的两侧得到比较(也不精确)。而文本作为图像完全被忽略,在所有工具中产生一致的结果。
但是我更感兴趣的是文本作为图像,因为我们处理更多的传统文本pdf文件。
下面附上了图形图像比较结果,它能够捕捉到图像之间的差异。

graphic image

但是当我比较文本和图片时,工具没有突出显示差异。

text image

我理解的是,该工具没有将文本视为图像图形进行比较,而是完全忽略了比较。我希望能够澄清我的假设是否正确。

其次,我想知道如何比较PDF文件中的文本图像以生成差异?


1
你的第一个问题只有你所使用的工具的作者才能回答。第二个问题可以通过OCR来解决...你需要检测文本(根据其典型属性),在两个图像中进行OCR并比较字符串、格式等。 - Spektre
1个回答

4
我正在为i-net PDFC的开发公司工作,所以我也会回答你的第一个问题:
你的假设是正确的。i-net PDFC能够比较图像和形状,但它无法检测某些内容是否完全改变了它的含义,例如用于绘制字母的线条形状或在您的情况下需要识别为文本的图像。将ASCII艺术视为图像也出于同样的原因无法起作用。这些情况始终会被检测为差异,即使它们的视觉外观相似。
关于您的第二个问题:使用OCR转换工具来处理一个或两个文档是解决此问题的常见方法。由于转换后文件中的不同字体样式和行包装,简单的图像比较比较页面是不可能成功的。
请注意,大多数OCR应用程序将使用呈现的页面图像进行识别。即使PDF文件中没有图像,这也可能导致不正确的识别结果。
i-net Software已经意识到了这个普遍问题,并且正在开发OCR模块。它将提供一种选项,仅对PDF文件中的图像应用识别。

你的笔记很有帮助,我正在寻找不同的OCR工具。如果i-net pdfc提供了这个功能,那肯定会为PDF比较提供完整的解决方案。现在我们需要为不同的内容比较使用不同的工具。 - pappu_kutty

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接