如何确定机器学习的训练数据是否足够

Question

8

例如：如果我想要训练一个分类器（比如SVM），我需要收集多少样本？是否存在一种测量方法来确定所需样本数量？

- tidy

3个回答

6

很不幸，这并没有简单的方法。

经验法则是“越多越好”，但在实际使用中，您必须收集“足够”的数据。所谓足够，是指涵盖您认为可以接受的建模空间的大部分。

此外，数量并不是一切。测试样本的质量也非常重要，即训练样本不应包含重复项。

个人而言，当我无法一次性获得所有可能的训练数据时，我会收集一些训练数据，然后训练分类器。如果分类器质量不可接受，我会收集更多数据等等。

这里有一些关于估计训练集质量的科学内容。

- Kao

4

这很大程度上取决于数据的性质和你试图做出的预测，但作为一个简单的起点规则，你的训练数据应该大约是模型参数数量的10倍。例如，当使用N个特征训练逻辑回归时，请尝试从10N个训练实例开始。

- Malay Haldar

1

我正在使用逻辑回归来分类评论。在对数据进行归一化和向量化后，我得到了一个数组，其中每列都是一个唯一的单词。当你提到“参数”、“特征”和“训练实例”时，这与我应用10倍规则的评论数量与唯一单词数量有什么关系？ - RandomTask

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jabaldonedo · Accepted Answer

想要知道需要收集多少样本并不容易。但是，您可以按照以下步骤进行：

解决一个典型的机器学习问题：

如果您的模型没有遭受“高偏差”，则此方法将奏效。