Libsvm数据集格式中samples的意义(尤其是Mnist数据集)

3

我从Libsvm数据集页面下载了Mnist数据集。所有样本都是这样的:

5 153:3 154:18 155:18 156:18 157:126 ...

有人知道这是什么意思吗?5 是类别标签,但是例如153:3代表什么呢?而且我在mnist官网上也找不到解释。

1个回答

7

这是libsvm编码(稀疏)向量的方式。正如您所说,5是标签,接下来的对vv对说第i个向量条目的值为v。因此,您可以将3维向量(a,b,c)编码为:

1:a 2:b 3:c

这种格式对于密集向量来说效率不高,但是对于稀疏数据来说是一个好的、已经被广泛使用的格式。由于它是纯文本,存储空间并不是最优的,但对于大多数应用程序来说足够好了。而且这些文件易于编写和阅读。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接