图像中文本定位有哪些好的算法?

5
我想问您是否知道任何好的文本本地化算法,可以检测图像中的文本候选项(用于我的OCR项目)。
实质上,在“应用”此算法后,我希望能够获得包含字符候选项的区域(边界框),例如:

enter image description here

我正在尝试找到一些有用的东西,但即使我找到了,它很可能在一篇极其困难的论文中,并需要应用非常高的数学知识。我已经接触过MSER(最大稳定极值区域)或梯度向量流方法,但它们对我来说都很困难(尽管我理解数学的很多内容,但我仍然很难理解这些内容)。
3个回答


3
你可以使用Opencv3.0的“场景文本检测”功能。它基于“用于场景文本检测的类特定极值区域”。它还有示例代码。
你可以在以下网址找到它们:
[1] http://docs.opencv.org/3.0-beta/modules/text/doc/erfilter.html [2] https://github.com/Itseez/opencv_contrib/blob/master/modules/text/samples/textdetection.cpp 论文:
[Neumann12] Neumann L., Matas J.: 实时场景文本定位和识别,CVPR 2012。该论文可在http://cmp.felk.cvut.cz/~neumalu1/neumann-cvpr2012.pdf上线获取。

[Neumann11] Neumann L., Matas J.: 使用高效修剪的穷举搜索在真实世界图像中定位文本,ICDAR 2011。该论文可在http://cmp.felk.cvut.cz/~neumalu1/icdar2011_article.pdf上线获取。

[Gomez13] Gomez L.和Karatzas D.:从自然场景中提取多脚本文本,ICDAR 2013。该论文可在http://158.109.8.37/files/GoK2013.pdf上线获取。

[Gomez14] Gomez L.和Karatzas D.:用于多脚本和任意方向场景文本提取的快速分层方法,arXiv:1407.7504 [cs.CV]。该论文可在http://arxiv.org/abs/1407.7504上线获取。


1

我不知道有什么简单易用的算法可以做到这一点。然而,我们正在使用一个名为leadtools的第三方工具包来执行类似的行为。我知道它可以自动查找文本区域并识别它们。有关更多信息,请参见此帮助主题,其中包括代码片段:

自动区域

此外,在对图像进行OCR之前,您可以对图像进行一些图像处理,因为图像中的颜色会降低OCR识别过程的准确性和性能。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接