在Google Cloud Vision API OCR中设置图像检测区域

Question

3

我曾使用Google Cloud Vision API进行文本检测，但我不知道它是否允许我们定义图像中的特定区域以提取文本。例如，如果我的图像有3列文本，并且我想提供要执行OCR的特定列的左上角坐标、宽度和高度，这是否可行？此外，在图像中有3列文本时，有没有其他方法可以避免文本混乱？

- Naveed

2个回答

0

你可以在 Detector 类的周围构建自己的包装器类。然后重新构建位图，将其放入馈入 detect 方法的帧对象中。

- Kai

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ch_mike · Accepted Answer

目前，无法定义从图像中提取文本的特定区域。在REST或gRPC API的图像上下文中都没有可用的参数。一个可能的解决方法是裁剪您的图像并仅发送您想要转录的文本。如果您想尝试自动化此过程，也许对象定位或裁剪提示功能可能会有所帮助。

关于混乱的文本，您可以在Json响应中定位每个块或段落。