线性判别分析与朴素贝叶斯

8

在机器学习分类方面,LDA和朴素贝叶斯的优缺点是什么?

我知道一些区别,例如朴素贝叶斯假设变量独立,而LDA假设高斯类条件密度模型,但我不理解在何时使用LDA或NB取决于情况。

1个回答

9
两种方法都很简单,所以很难说哪一种会更好。通常快速尝试两种并计算测试准确性会更快一些。但以下特征通常表明某种方法不太可能产生良好的结果。这一切都归结于数据。
朴素贝叶斯分类器的第一个缺点是 特征独立 假设。在实践中,数据是多维的,不同的特征之间存在相关性。因此,结果可能会潜在地非常糟糕,尽管不总是如此显著。如果你确定特征是相互依赖的(例如图像的像素),就不要指望朴素贝叶斯能够发挥作用。
另一个问题是 数据稀缺。对于特征的任何可能值,都会通过频率方法估计可能性。这可能导致概率接近 0 或 1,从而导致数值不稳定和更差的结果。
第三个问题出现在 连续特征上。朴素贝叶斯分类器仅适用于分类变量,因此必须将连续特征转换为离散特征,从而丢失大量信息。如果数据中存在连续变量,则这是反对朴素贝叶斯的有力证据。
线性判别分析在 类别不平衡 时效果不佳,即各类别的对象数量差异很大。解决方案是获取更多数据,这可能很容易或几乎不可能,这取决于任务。
LDA的另一个缺点是,它不适用于 非线性问题,例如分离甜甜圈形状的点云,但在高维空间中很难立即发现。通常只有在看到LDA不起作用后才会理解此问题,但如果已知数据非常非线性,则这是反对LDA的有力证据。
此外,LDA可能对 过度拟合 敏感,需要仔细验证/测试。

可以使用高斯朴素贝叶斯算法,它类似于LDA但假设独立的高斯变量。 - user179156

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接