我正在解决一个自动图像注释问题,即尝试将标签与图像关联起来。为此,我使用了SIFT特征进行学习。但问题是所有的SIFT特征都是一组关键点,每个关键点都有一个2-D数组,而且关键点的数量非常庞大。我该选择多少个关键点并如何将它们提供给我的学习算法,因为该算法通常只接受一维特征?
你应该阅读关于SIFT的原始论文,它告诉你什么是SIFT以及如何使用它。你应该仔细阅读第7章和其余章节,以了解如何在实践中使用它。
这里是原始论文的链接。
http://gilscvblog.wordpress.com/2013/08/23/bag-of-words-models-for-visual-categorization/