在Google Cloud Vision API OCR中设置图像检测区域

3

我曾使用Google Cloud Vision API进行文本检测,但我不知道它是否允许我们定义图像中的特定区域以提取文本。例如,如果我的图像有3列文本,并且我想提供要执行OCR的特定列的左上角坐标、宽度和高度,这是否可行?此外,在图像中有3列文本时,有没有其他方法可以避免文本混乱?

2个回答

2
目前,无法定义从图像中提取文本的特定区域。在RESTgRPC API的图像上下文中都没有可用的参数。一个可能的解决方法是裁剪您的图像并仅发送您想要转录的文本。如果您想尝试自动化此过程,也许对象定位裁剪提示功能可能会有所帮助。
关于混乱的文本,您可以在Json响应中定位每个块或段落。

1
实际上,在 REST API 的请求的 ImageContext 中有一个 latLongRect 字段,但文档表明它没有被使用。所以 @ch_mike 是正确的,但这可能暗示着该功能将在未来某个时候出现。 - Lefteris S
@ch_mike 到目前为止,我一直在使用imagemagick裁剪列并将它们附加在一起,然后将这个垂直的单列图像发送到视觉API,但是图像处理需要很长时间。 - Naveed
@LefterisS 有关如何使用 latLongRect 参数还有更多细节吗? - Naveed
1
@Naveed,我看到了这种方法的缺点。您可能希望使用此模板向GCP提出功能请求,请确保包含足够的信息,以便其他用户可以理解场景并投票支持,从而引起更多关注。对于列问题,已经有一个功能请求,请考虑通过单击问题编号旁边的星号进行投票支持。 - ch_mike

0

你可以在 Detector 类的周围构建自己的包装器类。然后重新构建位图,将其放入馈入 detect 方法的帧对象中。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接