SVM - 能量、损失、正则化和代价函数之间的区别

5
我正在阅读能量学习教程,并试图理解SVM上下文中上述所有术语之间的区别。这个链接总结了损失函数、成本函数和目标函数之间的差异。根据我的理解, 目标函数:我们想要最小化的东西。例如,SVM中的||w||^2损失函数:预测和标签之间的惩罚,也等同于正则化项。例如,在SVM中是铰链损失函数。 成本函数:将目标函数和损失函数组合在一起的一般公式。
现在,第一个链接说明铰链函数是max(0, m + E(W,Yi,Xi) - E(W,Y,X)),即它是能量项的函数。这是否意味着SVM的能量函数是1-y(wx+b)?能量函数是损失函数的一部分。而损失+目标函数是成本函数的一部分吗?
简明扼要地总结这4个术语将极大地帮助我理解。如果我的理解有误,请纠正我。这些术语听起来很令人困惑。谢谢!
1个回答

5
目标函数: 我们希望最小化的内容。例如SVM中的||w||^2。
目标函数就是优化的目标,可以是我们想要最小化的内容(如成本函数),也可以是我们想要最大化的内容(如可能性)。一般来说,它可以衡量当前解决方案的好坏(通常通过返回实数来实现)。
损失函数:预测和标签之间的惩罚,也等同于正则化项。例如SVM中的铰链损失函数。
首先,损失在任何情况下都不等同于正则化。损失函数是模型与真实情况之间的惩罚。这可以是类条件分布的预测与真实标签之间的差异,也可以是数据分布与经验样本之间的差异等等。
正则化
正则化是一个术语、惩罚项或度量,旨在对过于复杂的模型进行惩罚。在机器学习中,或者一般地说,在处理估计器时,你总是尝试平衡两种误差源-方差(来自过于复杂的模型、过拟合)和偏差(来自过于简单的模型、糟糕的学习方法、欠拟合)。正则化是在优化过程中对高方差模型进行惩罚的技术,以获得更少的过拟合。换句话说,对于可以完美拟合训练集的技术,有一个禁止它的度量是重要的,以保持泛化能力。
成本函数:将目标和损失函数结合起来的一般公式。
成本函数只是一个我们需要最小化的目标函数。它可以由一些损失函数和正则化器的聚合组成。
现在,第一个链接指出铰链函数是max(0, m + E(W,Yi,Xi) - E(W,Y,X)),即它是能量项的函数。这是否意味着SVM的能量函数是1-y(wx+b)?能量函数是损失函数的一部分吗?损失+目标函数是成本函数的一部分吗?
铰链损失是max(0, 1 - y(<w,x> - b))。这里定义的不是SVM,而是一般因子图,我强烈建议从基础开始学习机器学习,而不是从高级技术开始。如果没有良好的机器学习基础知识,将无法理解本文。
以下是SVM的示例和命名约定。
C SUM_i=1^N max(0, 1 - y_i(<w, x_i> - b)) + ||w||^2

            \__________________________/    \_____/
                         loss            regularization
\_________________________________________________/
            cost / objective function                        

我觉得自己有些困惑,因为我总是看到C被附加到铰链损失函数上,并且C被称为正则化参数。这难道不会让铰链函数成为正则化函数吗?但还是感谢您的回答! - cschua
放置 C 的位置是否重要?因为它所做的只是赋予损失或正则化函数更多的重要性,而给予一个函数更多的重要性意味着对另一个函数的重要性减少... - cschua
另外,我想我不应该混淆概率图模型中使用的术语和支持向量机中使用的术语。我正在阅读有关马尔可夫随机场介绍的内容,被能量项所吸引而走神了。 - cschua
无论您将C放在何处都没有关系,但是我已将其移动到更常见的位置,如建议所示。 - lejlot
“正则化”始终是||w||^2,无论C的值为何。正则化关乎特定术语的含义,而权重向量的范数则是进行正则化的因素。C只是用于给两个术语赋权重,您也可以使用alpha和(1-alpha)来代替,这可能会更清晰地说明其含义。 - lejlot
谢谢你非常有帮助的回答。在你对最后一部分的回答中,你没有提到能量函数的明确定义?它与成本或目标函数有何不同? - Mohammad nagdawi

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接