我已经查看了Scipy Stats中scipy.stats.mstats.normaltest和scipy.stats.shapiro的正态性检验,看起来它们都假定零假设是给定数据是正态分布的。
也就是说,小于0.05的p值表示它们不是正态分布。
我正在使用SKLearn中的LassoCV进行回归,为了得到更好的结果,我对答案进行了对数转换,这样得到的直方图如下: 我觉得看起来很正常。然而,当我通过上述两个测试之一运行数据时,我得到非常小的p值,这表明数据不正常,而且程度很大。
当我使用scipy.stats.shapiro时,我得到了这个结果。
当我运行scipy.stats.mstats.normaltest时,我得到了这个结果:
我觉得很难以置信,我的数据在直方图上显示出如此远离正态分布。
这种差异是由于某些原因引起的吗,还是我没有正确解释结果?
也就是说,小于0.05的p值表示它们不是正态分布。
我正在使用SKLearn中的LassoCV进行回归,为了得到更好的结果,我对答案进行了对数转换,这样得到的直方图如下: 我觉得看起来很正常。然而,当我通过上述两个测试之一运行数据时,我得到非常小的p值,这表明数据不正常,而且程度很大。
当我使用scipy.stats.shapiro时,我得到了这个结果。
scipy.stats.shapiro(y)
Out[69]: (0.9919402003288269, 3.8889791653673456e-07)
当我运行scipy.stats.mstats.normaltest时,我得到了这个结果:
scipy.stats.mstats.normaltest(y)
NormaltestResult(statistic=25.755128535282189, pvalue=2.5547293546709236e-06)
我觉得很难以置信,我的数据在直方图上显示出如此远离正态分布。
这种差异是由于某些原因引起的吗,还是我没有正确解释结果?
scipy.stats.probplot
函数来生成P-P图。 - undefined