谷歌视觉API无法识别单个数字

Question

谷歌视觉API无法识别单个数字

google-cloud-platformocrgoogle-cloud-visiontext-recognition

17

我有一个项目，利用Google Vision API DOCUMENT_TEXT_DETECTION从文档图像中提取文本。

通常API在识别单个数字时会遇到困难，如下图所示：

我认为问题可能与去噪算法有关，它将孤立的单个数字识别为噪声。是否有一种方法可以改进这些情况下的Vision响应？（例如管理噪声阈值或其他参数）

其他情况下，Vision会混淆数字和字母：

但如果我将languageHints参数指定为'en'或'mt'，OCR将忽略这些数字。是否有一种方法可以强制识别数字或拉丁字符？

- Davide Biraghi

我不知道确切的原因，但似乎块大小也存在问题——它们太大了——因此可能会错过/误解一些数字。如果有的话，请寻找控制段大小的选项。 - Agnius Vasiliauskas

你可以尝试使用 TEXT_DETECTION。如文档所述，DOCUMENT_TEXT_DETECTION 用于优化密集的文本。但你所使用的图像似乎不是这种情况。 - enle lin

3

感谢@enlelin的回复。不幸的是，我需要从书面文件中提取文本，这些文件通常具有不同文本密度的区域。在我的情况下，DOCUMENT_TEXT_DETECTION的效果明显更好，但在识别孤立字符方面存在困难。 - Davide Biraghi

4

你找到解决这个问题的方法了吗？ - jbb

我也遇到了这个问题。有人已经解决了吗？谢谢。 - jase

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- JJ Geewax · Accepted Answer

不幸的是，我认为Vision API针对两端进行了优化--一端是密集文本（DOCUMENT_TEXT_DETECTION），另一端是任意位文本（TEXT_DETECTION）。正如您在评论中指出的那样，常规的TEXT_DETECTION适用于这些散乱的单个数字，而DOCUMENT_TEXT_DETECTION则总体效果更好。

据我所知，目前没有计划尝试以单一方式涵盖这两个方面，但未来可能会有所改进。

我认为已经有其他要求对您要检测的内容进行更精细调整和提示的请求（例如here和here），但目前似乎还不可用。也许在将来，您将能够提供有关图像中要查找的文本格式的更多提示（例如电话号码、单个数字等）。