普通最小二乘回归给出错误的预测

4

我正在使用statsmodels OLS对一系列点进行拟合:

import statsmodels.api as sm
Y = [1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15]
X = [[73.759999999999991], [73.844999999999999], [73.560000000000002], 
    [73.209999999999994], [72.944999999999993], [73.430000000000007], 
    [72.950000000000003], [73.219999999999999], [72.609999999999999], 
    [74.840000000000003], [73.079999999999998], [74.125], [74.75],
    [74.760000000000005]]

ols = sm.OLS(Y, X)
r = ols.fit()
preds = r.predict()
print preds

以下是我的结果:

我得到了以下结果:

[ 7.88819844  7.89728869  7.86680961  7.82937917  7.80103898  7.85290687
  7.8015737   7.83044861  7.76521269  8.00369809  7.81547643  7.92723304
  7.99407312  7.99514256]

这些数值偏差大约在10倍左右。我做错了什么?我尝试增加一个常数,但这只会将数值变大1000倍。由于我对统计学并不熟悉,也许需要对数据进行处理?


1
只是一条注释:那不是逻辑回归。 - shadowtalker
2
也许用Y的角度来看,模型X会更好? - Michael M
1
模型的依赖变量作为第一个参数,不会自动添加常数。我猜你想要通过 sm.OLS(X, sm.add_constant(Y)).fit() 定义模型。 - Josef
1个回答

5

我认为你可能已经把响应变量和预测变量弄反了,就像Michael Mayer在评论中建议的那样。如果你用模型预测的结果绘制数据,你会得到这样的图形:

import statsmodels.api as sm
import numpy as np
import matplotlib.pyplot as plt

Y = np.array([1,2,3,4,5,6,7,8,9,11,12,13,14,15])
X = np.array([ 73.76 ,  73.845,  73.56 ,  73.21 ,  72.945,  73.43 ,  72.95 ,
    73.22 ,  72.61 ,  74.84 ,  73.08 ,  74.125,  74.75 ,  74.76 ])
Design = np.column_stack((np.ones(14), X))
ols = sm.OLS(Y, Design).fit()
preds = ols.predict()

plt.plot(X, Y, 'ko')
plt.plot(X, preds, 'k-')
plt.show()

enter image description here

如果您想要交换X和Y,那么您需要做的是:

Design2 = np.column_stack((np.ones(14), Y))
ols2 = sm.OLS(X, Design2).fit()
preds2 = ols2.predict()
print preds2
[ 73.1386399   73.21305699  73.28747409  73.36189119  73.43630829
  73.51072539  73.58514249  73.65955959  73.73397668  73.88281088
  73.95722798  74.03164508  74.10606218  74.18047927]

plt.plot(Y, X, 'ko')
plt.plot(Y, preds2, 'k-')
plt.show()

enter image description here


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接