如何确定机器学习的训练数据是否足够

8
例如:如果我想要训练一个分类器(比如SVM),我需要收集多少样本?是否存在一种测量方法来确定所需样本数量?
3个回答

11

想要知道需要收集多少样本并不容易。但是,您可以按照以下步骤进行:

解决一个典型的机器学习问题:

  1. 收集一些数据,有多少个?这将取决于您所面临的问题类型,现在不要花费太多时间。
  2. 将数据集分为训练、交叉验证和测试,并构建模型。
  3. 现在,您已经构建了机器学习模型,需要评估其好坏。计算您的测试误差。
  4. 如果您的测试误差低于您的期望值,请收集新数据并重复步骤1-3,直到达到您满意的测试误差率为止。

如果您的模型没有遭受“高偏差”,则此方法将奏效。

Coursera的机器学习课程中的这个视频对此进行了详细说明。


6

很不幸,这并没有简单的方法。

经验法则是“越多越好”,但在实际使用中,您必须收集“足够”的数据。所谓足够,是指涵盖您认为可以接受的建模空间的大部分。

此外,数量并不是一切。测试样本的质量也非常重要,即训练样本不应包含重复项。

个人而言,当我无法一次性获得所有可能的训练数据时,我会收集一些训练数据,然后训练分类器。如果分类器质量不可接受,我会收集更多数据等等。

这里有一些关于估计训练集质量的科学内容。


4

1
我正在使用逻辑回归来分类评论。在对数据进行归一化和向量化后,我得到了一个数组,其中每列都是一个唯一的单词。当你提到“参数”、“特征”和“训练实例”时,这与我应用10倍规则的评论数量与唯一单词数量有什么关系? - RandomTask

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接