这更像是一个统计问题,因为代码已经正常工作了,但我正在学习在Python中进行回归建模。下面有一些使用statsmodel创建简单线性回归模型的代码:
import statsmodels.api as sm
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
ng = pd.read_csv('C:/Users/ben/ngDataBaseline.csv', thousands=',', index_col='Date', parse_dates=True)
X = ng['HDD']
y = ng['Therm']
# Note the difference in argument order
model = sm.OLS(y, X).fit()
# Print out the statistics
model.summary()
我得到了以下屏幕截图的输出。我正在尝试评估拟合优度,我知道R ^ 2很高,但是是否可以使用statsmodel找到预测的均方根误差(RMSE)?
我还尝试研究是否可以用置信区间估计抽样分布。如果我正确地解释截距HDD 5.9309的表格,标准误差为0.220,p值低于0.000,我认为在97.5%的置信区间内,HDD的值(或者是我的因变量Therm?)将介于5.489和6.373之间?或者我认为以百分比表示可能表达为〜±0.072%