谷歌视觉API无法识别单个数字

17

我有一个项目,利用Google Vision API DOCUMENT_TEXT_DETECTION从文档图像中提取文本。

通常API在识别单个数字时会遇到困难,如下图所示:

enter image description here

我认为问题可能与去噪算法有关,它将孤立的单个数字识别为噪声。是否有一种方法可以改进这些情况下的Vision响应?(例如管理噪声阈值或其他参数)

其他情况下,Vision会混淆数字和字母:

enter image description here

但如果我将languageHints参数指定为'en'或'mt',OCR将忽略这些数字。是否有一种方法可以强制识别数字或拉丁字符?


我不知道确切的原因,但似乎块大小也存在问题——它们太大了——因此可能会错过/误解一些数字。如果有的话,请寻找控制段大小的选项。 - Agnius Vasiliauskas
你可以尝试使用 TEXT_DETECTION。如 文档 所述,DOCUMENT_TEXT_DETECTION 用于优化密集的文本。但你所使用的图像似乎不是这种情况。 - enle lin
3
感谢@enlelin的回复。不幸的是,我需要从书面文件中提取文本,这些文件通常具有不同文本密度的区域。在我的情况下,DOCUMENT_TEXT_DETECTION的效果明显更好,但在识别孤立字符方面存在困难。 - Davide Biraghi
4
你找到解决这个问题的方法了吗? - jbb
我也遇到了这个问题。有人已经解决了吗?谢谢。 - jase
1个回答

1
不幸的是,我认为Vision API针对两端进行了优化--一端是密集文本(DOCUMENT_TEXT_DETECTION),另一端是任意位文本(TEXT_DETECTION)。正如您在评论中指出的那样,常规的TEXT_DETECTION适用于这些散乱的单个数字,而DOCUMENT_TEXT_DETECTION则总体效果更好。
据我所知,目前没有计划尝试以单一方式涵盖这两个方面,但未来可能会有所改进。
我认为已经有其他要求对您要检测的内容进行更精细调整和提示的请求(例如herehere),但目前似乎还不可用。也许在将来,您将能够提供有关图像中要查找的文本格式的更多提示(例如电话号码、单个数字等)。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接