为什么Imagenet数据集标签存在差异？

Question

为什么Imagenet数据集标签存在差异？

machine-learningcomputer-visiondeep-learningclassificationimagenet

5

训练和验证使用的标签是否相同？我认为它们应该是相同的；然而，网上提供的标签存在差异。当我从官方网站下载imagenet 2012验证数据的标签时，第一个标签以kit_fox开头，与我从官方网站下载的确切2012数据集的验证图像相匹配。这是标签的示例：https://gist.github.com/aaronpolhamus/964a4411c0906315deb9f4a3723aac57 然而，对于几乎所有预训练模型，包括谷歌训练的模型，它们用于训练的imagenet标签实际上是以tench, tinca tinca开头的。请参见此处：https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a 为什么会存在如此巨大的差异？“tinca tinca”这种标签是从哪里来的？

如果我们使用与实际验证图像相对应的第一个标签映射，我们将面临另一个问题：2个类别（“Crane”和“maillot”）实际上是重复的，即它们具有相同的名称，但指代不同类型的起重机 - 机械起重机和动物起重机 - 导致2个类别中有100张图像，而不是应有的50张。如果我们不使用第一个映射，那么哪里可以获得与第二个标签映射相对应的可靠验证图像源呢？

- kwotsin

我还意识到数据集中有两次出现了“maillot”，并且这两次的意思是相同的。“crane”也出现了两次，但这里有不同的含义 - 鸟和物体。 - anushka

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Glauco Roberto · Answer 1

在我的微调中，我遇到了同样的问题。你可以通过将类名tench, tinca tinca更改为synset number来解决这个问题。你可以在这里找到映射表。