我一直在试图弄清楚这两个模型中的误差率和特征数量之间的相关性。我看了一些视频,视频的作者说一个简单的模型可能比一个复杂的模型更好。所以我想,我有更多的特征,误差率就会更高。但是在我的工作中,这并没有证明是正确的,当我有较少的特征时,误差率反而上升了。我不确定我是否做错了什么,或者那个视频中的人犯了一个错误。有人能解释一下吗?我也很好奇特征与逻辑回归的误差率之间的关系。
我一直在试图弄清楚这两个模型中的误差率和特征数量之间的相关性。我看了一些视频,视频的作者说一个简单的模型可能比一个复杂的模型更好。所以我想,我有更多的特征,误差率就会更高。但是在我的工作中,这并没有证明是正确的,当我有较少的特征时,误差率反而上升了。我不确定我是否做错了什么,或者那个视频中的人犯了一个错误。有人能解释一下吗?我也很好奇特征与逻辑回归的误差率之间的关系。
朴素贝叶斯和逻辑回归是一对“生成-判别”算法,意味着它们具有相同的模型形式(线性分类器),但是采用不同的参数估计方法。
对于特征x和标签y,朴素贝叶斯从训练数据中估计联合概率p(x,y) = p(y)*p(x|y)(即建立一个能够“生成”数据的模型),并使用贝叶斯规则来预测新测试实例的p(y|x)。另一方面,逻辑回归通过最小化误差函数(更多地是“判别”)直接从训练数据中估计p(y|x)。
这些差异对错误率有影响:
如果特征确实(大部分)是条件独立的,则两种模型在具有足够数据实例的情况下可能会随着越来越多的特征而改进。问题出现在训练集大小相对于特征数量较小的情况下。在这些情况下,朴素贝叶斯特征参数的先验或逻辑回归的正则化方法(如L1/Lasso或L2/Ridge)可以帮助解决问题。