目标的缩放导致Scikit-learn SVM回归出现故障

10
在训练SVM回归时,通常建议在训练之前对输入特征进行缩放。
但是如何缩放目标?通常情况下,这不被认为是必要的,我也没有看到为什么需要这样做的好理由。
然而,在scikit-learn中SVM回归的示例中: http://scikit-learn.org/stable/auto_examples/svm/plot_svm_regression.html 仅在训练之前引入y=y/1000这一行代码,预测值就会崩溃为一个常数。在训练之前缩放目标变量将解决此问题,但我不明白为什么这是必要的。
这个问题是什么原因造成的?
import numpy as np
from sklearn.svm import SVR
import matplotlib.pyplot as plt

# Generate sample data
X = np.sort(5 * np.random.rand(40, 1), axis=0)
y = np.sin(X).ravel()

# Add noise to targets
y[::5] += 3 * (0.5 - np.random.rand(8))

# Added line: this will make the prediction break down
y=y/1000

# Fit regression model
svr_rbf = SVR(kernel='rbf', C=1e3, gamma=0.1)
svr_lin = SVR(kernel='linear', C=1e3)
svr_poly = SVR(kernel='poly', C=1e3, degree=2)
y_rbf = svr_rbf.fit(X, y).predict(X)
y_lin = svr_lin.fit(X, y).predict(X)
y_poly = svr_poly.fit(X, y).predict(X)

# look at the results
plt.scatter(X, y, c='k', label='data')
plt.hold('on')
plt.plot(X, y_rbf, c='g', label='RBF model')
plt.plot(X, y_lin, c='r', label='Linear model')
plt.plot(X, y_poly, c='b', label='Polynomial model')
plt.xlabel('data')
plt.ylabel('target')
plt.title('Support Vector Regression')
plt.legend()
plt.show()
1个回答

12

支持向量回归使用一种仅在预测值和目标之间的差异超过某个阈值时才为正数的损失函数。在阈值以下,预测被认为“足够好”,并且损失为零。当你将目标值缩小时,SVM学习器可以通过返回一个平坦模型来逃避任何损失,因为它不再产生任何损失。

阈值参数在sklearn.svm.SVR中称为epsilon;对于较小的目标,请将其设置为较低的值。这背后的数学原理在这里有解释。


就是这样,谢谢你的回答。对于一个通用模型,选项是缩放目标,或在我的网格搜索中包含epsilon。你有什么建议更有意义吗? - user1774143
1
@user1774143 为寻找正确的“epsilon”进行网格搜索。缩放“y”是等效的,但容易出错。 - Fred Foo

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接