Python中每个预测变量的调整后R平方值

3

我有一个包含多列的pandas数据框。我需要进行多元线性回归。在这之前,我想分析每个独立变量相对于因变量的R、R2、调整后的R2和p值。 对于R和R2,我没有问题,因为我可以计算R矩阵并选择只有依赖变量,然后查看它与所有独立变量之间的R系数。然后我可以将这些值平方以获得R2。 我的问题是如何使用调整后的R2和p值做同样的事情。 最终我想要得到像这样的结果:

 Variable     R        R2       ADJUSTED_R2   p_value
 A            0.4193   0.1758   ...
 B            0.2620   0.0686   ...
 C            0.2535   0.0643   ...

所有的值都是相对于依赖变量(比如Y)而言的。

1个回答

0

以下内容并不能回答所有问题,但它可以帮助你使用python、pandas和statsmodels进行回归分析。


给定一个像这样的数据框...

# Imports
import pandas as pd
import numpy as np
import itertools

# A datafrane with random numbers
np.random.seed(123)
rows = 12
listVars= ['y','x1', 'x2', 'x3']
rng = pd.date_range('1/1/2017', periods=rows, freq='D')
df_1 = pd.DataFrame(np.random.randint(100,150,size=(rows, len(listVars))), columns=listVars) 
df_1 = df_1.set_index(rng)

print(df_1)

enter image description here

...你可以使用statsmodels库并修改以下代码片段中的result = model.rsquared部分,来获得任何回归结果:

x = df_1['x1']
x = sm.add_constant(x)
model = sm.OLS(df_1['y'], x).fit()    
result = model.rsquared
print(result)

enter image description here

现在你已经有了R平方。使用model.pvalues获取p值。并使用dir(model)更仔细地查看其他模型结果(输出中有比下面看到的更多内容):

enter image description here

现在,这应该可以帮助您获得所需的结果。 要获取所有变量/列的所需结果,问题和答案here应该能够帮助您迈出很大的一步。

编辑:您可以使用model.summary()更仔细地查看一些常见的回归结果。与dir(model)一起使用,您可以看到并非所有回归结果都可以像使用model.pvalues那样轻松获得p值。例如,要获取Durbin-Watson值,您将需要使用durbinwatson = sm.stats.stattools.durbin_watson(model.fittedvalues, axis=0)此帖子提供了有关此问题的更多信息。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接