我正在进行一项回归,如下所示(df
是一个 pandas
数据帧):
import statsmodels.api as sm
est = sm.OLS(df['p'], df[['e', 'varA', 'meanM', 'varM', 'covAM']]).fit()
est.summary()
其中之一是R方值为0.942
。因此,我想绘制原始的y数值
和拟合的数值。为此,我对原始数值进行了排序:
orig = df['p'].values
fitted = est.fittedvalues.values
args = np.argsort(orig)
import matplotlib.pyplot as plt
plt.plot(orig[args], 'bo')
plt.plot(orig[args]-resid[args], 'ro')
plt.show()
然而,这给了我一张数值完全不准确的图表。没有任何迹象表明R平方为0.9
。因此,我尝试手动计算:
yBar = df['p'].mean()
SSTot = df['p'].apply(lambda x: (x-yBar)**2).sum()
SSReg = ((est.fittedvalues - yBar)**2).sum()
1 - SSReg/SSTot
Out[79]: 0.2618159806908984
我是不是做错了什么?还是我的计算结果与statsmodels得到的结果相差很远有原因?SSTot
,SSReg
的值分别为 48084
,35495
。