为什么Imagenet数据集标签存在差异?

5
训练和验证使用的标签是否相同?我认为它们应该是相同的;然而,网上提供的标签存在差异。当我从官方网站下载imagenet 2012验证数据的标签时,第一个标签以kit_fox开头,与我从官方网站下载的确切2012数据集的验证图像相匹配。这是标签的示例:https://gist.github.com/aaronpolhamus/964a4411c0906315deb9f4a3723aac57 然而,对于几乎所有预训练模型,包括谷歌训练的模型,它们用于训练的imagenet标签实际上是以tench, tinca tinca开头的。请参见此处:https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a 为什么会存在如此巨大的差异?“tinca tinca”这种标签是从哪里来的?
如果我们使用与实际验证图像相对应的第一个标签映射,我们将面临另一个问题:2个类别(“Crane”和“maillot”)实际上是重复的,即它们具有相同的名称,但指代不同类型的起重机 - 机械起重机和动物起重机 - 导致2个类别中有100张图像,而不是应有的50张。如果我们不使用第一个映射,那么哪里可以获得与第二个标签映射相对应的可靠验证图像源呢?

我还意识到数据集中有两次出现了“maillot”,并且这两次的意思是相同的。“crane”也出现了两次,但这里有不同的含义 - 鸟和物体。 - anushka
1个回答

0

在我的微调中,我遇到了同样的问题。你可以通过将类名tench, tinca tinca更改为synset number来解决这个问题。你可以在这里找到映射表。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接