图像中的Logo识别

58

有没有最近在图像中进行标志识别的学术研究?如果您对这个特定主题熟悉,请回答这个问题(我可以自己在谷歌上搜索“标志识别”,非常感谢)。 任何了解计算机视觉并进行过物体识别工作的人都可以发表评论。

更新:请参考算法方面(什么方法适合,领域内的论文,它是否应该适用(并已经测试)于实际数据,效率方面的考虑),而不是技术方面(使用的编程语言或者是否使用OpenCV等)... 图像索引和基于内容的图像检索方面的研究也可能有所帮助。


1
如果您告诉我们您正在寻找什么,以及您所说的“严肃”是什么意思,那么您就可以提高获得良好答案的机会。我已经在计算机视觉/物体识别领域工作了10多年,但我甚至不确定您所说的“标志识别”是什么意思。 - Niki
通过标志识别,我指的是例如获取包含可口可乐标志/商标的图像,检测标志并将其标记为“可口可乐”。在该领域工作了10年听起来很严肃。(我主要是想避免像下面这样不太有信息量的答案) - elijah
你找到了解决问题的替代方法吗?因为世界上有成千上万个标志,所以识别标志有点困难...我想过用BoW特征,但我们是否有每种标志的类别呢? - lilouch
4个回答

39

您可以尝试使用SIFT等本地特征:

http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

这应该有效,因为标志形状通常是固定的,因此提取的特征应匹配良好。

工作流程如下:

  1. 检测角点(例如Harris角检测器)- 对于Nike标志,它们是两个尖端。

  2. 计算描述符(如SIFT-128D整数向量)

  3. 在训练阶段记住它们;在匹配阶段,为训练期间获得的数据库中的每个特征找到最近邻居。最后,你有一组匹配项(其中一些可能是错误的)。

  4. 使用RANSAC清除错误的匹配项。因此,您将获得描述从理想标志图像到您发现标志的图像的变换的矩阵。根据设置,您可以允许不同类型的转换(仅平移;平移和旋转;仿射变换)。

Szeliski的书有一个有关本地特征的章节。

http://research.microsoft.com/en-us/um/people/szeliski/Book/

P.S.

  1. 我假设您想在照片中查找标志,例如查找所有百事广告牌,因此它们可能会失真。如果您需要在屏幕上找到电视频道标志(以便它不旋转和缩放),则可以更轻松地完成(模式匹配或其他方式)。

  2. 传统SIFT不考虑颜色信息。由于标志通常具有恒定的颜色(尽管确切的颜色取决于光线和相机),因此您可能需要考虑一些颜色信息。


谢谢。这种方法听起来很合理。关于每个特征的最近邻居 - 这听起来非常密集(我计划识别成千上万个标志),你认为优化的好方法是什么?我想到了向量量化或近似最近邻居... - elijah
1
Liza,你说得对,在128D中找到NN很难。目前的最新技术是通过kd-tree或k-means树森林进行近似NN搜索。这已经在Muja-Lowe FLANN中实现了:http://people.cs.ubc.ca/~mariusm/index.php/FLANN/FLANN - Roman Shapovalov
再次感谢。此外,我还找到了以下这些关于可扩展和高效图像识别的论文:
  • Torralba、Fergus 和 Weiss 的《Small Codes and Large Image Databases for Recognition》(识别用小代码和大型图像数据库)
  • Nister 和 Stewenius 的《Scalable Recognition with a Vocabulary Tree》(使用词汇树进行可扩展识别)
- elijah
http://www.vlfeat.org/ 提供了 MATLAB 和 C 的 SIFT 实现(以及一些其他计算机视觉算法)。 - worbel
请问,这里的训练是什么意思?目标是在大图像中定位徽标。那么如何过滤与徽标无关的特征呢? - Suzan Cioc
1
首先,您需要一组标志的训练集。例如,您可以拥有图片,其中标志由边界框注释。然后,您可以提取描述符,并根据提取它们的区域将它们标记为标志或非标志。这回答了您的问题吗? - Roman Shapovalov

32

我们在实际图像中进行了logo检测/识别。同时,我们创建了一个数据集FlickrLogos-32并将其公开发布,包括数据、标准答案和评估脚本。

在我们的工作中,我们将logo识别视为检索问题,以简化多类别识别,并使这些系统易于扩展到许多(例如数千个)logo类别。

最近,我们开发了一种被称为Bundle min-Hashing的捆绑技术,它将多个局部特征的空间配置聚合成高度独特的特征束。该捆绑表示既可以用于检索又可以用于识别。请参见以下用于logo检测的示例热度图:

enter image description here enter image description here

您可以在论文[1][2]中找到有关内部操作、方法的潜在应用、性能实验以及当然还包括许多相关工作的参考文献。


3
您可以在这里找到相关论文:http://www.multimedia-computing.de/wiki/Stefan_Romberg。请查找“Bundle min-Hashing”或我的博士论文。我有一些尚未公开的演示文稿。该原型已经售出。 - Stefan
所有链接都已失效... - wcochran

7

工作内容:在体育视频数据库中进行商标匹配和检索

获取论文PDF:http://scholar.google.it/scholar?cluster=9926471658203167449&hl=en&as_sdt=2000

我们使用SIFT作为商标和图像描述符,并使用标准化的阈值匹配来计算模型和图片之间的距离。在我们最新的工作中,我们能够通过创建评估在同一商标的不同版本中存在的SIFT点的相关性来创建元模型,从而大大减少计算量。

总的来说,与照片相比,处理视频更加困难,因为当前使用的电视标准的视觉质量非常低。

马可


4
我曾经参与一个项目,需要做类似的事情。起初我尝试使用这个软件OpenCV来进行Haar训练技术,它确实可以工作,但并不是我们需求的最佳解决方案。我们的源图像(我们正在寻找徽标的地方)是固定大小且仅包含徽标。因此,我们能够使用cvMatchShapes和已知的良好匹配进行比较,以确定是否为良好匹配。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接