什么是机器学习中的归纳偏置?为什么它是必要的?
什么是机器学习中的归纳偏置?为什么它是必要的?
每个具有超越训练数据的泛化能力的机器学习算法都有某种归纳偏置,这些是模型为学习目标函数和在训练数据之外进行泛化所作出的假设。
例如,在线性回归中,模型假定输出或因变量与自变量之间存在线性关系(通过权重)。这是该模型的一种归纳偏置。
机器学习中的每一个设计选择都代表了某种形式的归纳偏见。在本答案中,我将参考《关系归纳偏置、深度学习和图网络》(Battaglia等人,2018)进行解释。
归纳偏见允许学习算法在不依赖观察数据的情况下优先考虑一种解决方案(或解释)而非其他[...]归纳偏见可以表达关于数据生成过程或解决方案空间的假设。
具体来说,深度学习中层的组合提供了一种类型的关系归纳偏见:分层处理。 层的类型施加了进一步的关系归纳偏见:
更一般地,深度学习中使用的非关系归纳偏见包括:
在贝叶斯模型中,归纳偏置通常通过选择和参数化先验分布来表达。将Tikhonov正则化惩罚加入损失函数意味着假定更简单的假设更可能发生。
归纳偏置越强,样本效率越高--这可以用偏差-方差折衷来解释。许多现代深度学习方法遵循“端到端”的设计理念,强调最小的a priori表示和计算假设,这就解释了它们为什么往往需要如此大量的数据。另一方面,有很多研究将更强的关系归纳偏置融入深度学习架构中,例如使用图网络。
在哲学中,归纳推理指从具体观察中推广出结论。这是演绎推理的反面,演绎推理指从一般观念到结论的专业化。
归纳偏置是学习者用来预测未曾遇到的输入结果的一系列假设。
根据Tom Mitchell的定义,
学习者的归纳偏置是一组附加假设,足以将其归纳推理视为演绎推理。
我并不能完全理解上述定义,因此我查阅了维基百科,并能用通俗易懂的语言总结出该定义。
在给定数据集的情况下,应选择哪种学习模型(=归纳偏差)?
归纳偏差对任务有一些先前的假设。没有一种偏见适用于所有问题,已经进行了大量的研究努力来自动发现归纳偏差。
以下是机器学习算法中常见的归纳偏差列表。
最大条件独立性:如果假设可以用贝叶斯框架表示,请尝试最大化条件独立性。这是朴素贝叶斯分类器中使用的偏差。
最小交叉验证误差:当尝试在假设之间进行选择时,请选择具有最低交叉验证误差的假设。尽管交叉验证可能看起来没有偏见,但“无免费午餐”定理表明交叉验证必须具有偏见。
最大间隔:在绘制分界线时,请尝试最大化边界的宽度。这是支持向量机中使用的偏差。假设不同类别倾向于被宽广的边界分开。
最小描述长度:在形成假设时,请尝试最小化假设的描述长度。假设简单则更可能为真。参见奥卡姆剃刀。
最小特征: 除非有充分的证据表明某个特征有用,否则应将其删除。这是特征选择算法背后的假设。
最近邻居: 假设特征空间中一个小邻域内的大多数案例都属于同一类。对于一个类别未知的案例,猜测它属于其直接邻居中占多数的类别。这是k最近邻算法中使用的偏见。该假设是靠近彼此的案例往往属于相同的类别。
更多信息请参见: 归纳偏见 - 如何在新数据上进行泛化
归纳偏差是指模型通过观察数据点之间的关系自学习一组假设,以制定广义模型。当面对实时测试数据时,预测的准确性将会提高。
例如:
我们考虑一个回归模型,以出勤率作为自变量来预测学生的分数-
在这里,模型将假设出勤百分比与学生分数之间存在线性关系。这种假设仅仅是归纳偏见。我认为归纳偏置是一组假设,人们可以从中更准确地预测不在我们数据集中的输入。模型必须具有一定的归纳偏置,因为只有这样,模型才能对更多的数据更有用。模型的目标是适应大部分数据,而不仅仅是样本数据。因此,归纳偏置非常重要。
Maximum conditional independence in Bayesian framework
Minimum cross-validation error
Maximum margin in Support Vector Machine (SVM)
Minimum description length (Based on Occam’s razor principle that argues simpler hypotheses are more likely to be true)
Minimum features (Unless there is good evidence that a feature is useful, it should be deleted)
Nearest neighbors in clustering
Model ensemble in boosting algorithms (using multiple additive classifiers to obtain better predictive performance).