例如:如果我想要训练一个分类器(比如SVM),我需要收集多少样本?是否存在一种测量方法来确定所需样本数量?
想要知道需要收集多少样本并不容易。但是,您可以按照以下步骤进行:
解决一个典型的机器学习问题:
如果您的模型没有遭受“高偏差”,则此方法将奏效。
Coursera的机器学习课程中的这个视频对此进行了详细说明。
很不幸,这并没有简单的方法。
经验法则是“越多越好”,但在实际使用中,您必须收集“足够”的数据。所谓足够,是指涵盖您认为可以接受的建模空间的大部分。
此外,数量并不是一切。测试样本的质量也非常重要,即训练样本不应包含重复项。
个人而言,当我无法一次性获得所有可能的训练数据时,我会收集一些训练数据,然后训练分类器。如果分类器质量不可接受,我会收集更多数据等等。
这里有一些关于估计训练集质量的科学内容。