线性判别分析与朴素贝叶斯

Question

8

在机器学习分类方面，LDA和朴素贝叶斯的优缺点是什么？

我知道一些区别，例如朴素贝叶斯假设变量独立，而LDA假设高斯类条件密度模型，但我不理解在何时使用LDA或NB取决于情况。

- jon givony

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Maxim · Accepted Answer

两种方法都很简单，所以很难说哪一种会更好。通常快速尝试两种并计算测试准确性会更快一些。但以下特征通常表明某种方法不太可能产生良好的结果。这一切都归结于数据。

朴素贝叶斯分类器的第一个缺点是特征独立假设。在实践中，数据是多维的，不同的特征之间存在相关性。因此，结果可能会潜在地非常糟糕，尽管不总是如此显著。如果你确定特征是相互依赖的（例如图像的像素），就不要指望朴素贝叶斯能够发挥作用。

另一个问题是数据稀缺。对于特征的任何可能值，都会通过频率方法估计可能性。这可能导致概率接近 0 或 1，从而导致数值不稳定和更差的结果。

第三个问题出现在连续特征上。朴素贝叶斯分类器仅适用于分类变量，因此必须将连续特征转换为离散特征，从而丢失大量信息。如果数据中存在连续变量，则这是反对朴素贝叶斯的有力证据。

线性判别分析在类别不平衡时效果不佳，即各类别的对象数量差异很大。解决方案是获取更多数据，这可能很容易或几乎不可能，这取决于任务。

LDA的另一个缺点是，它不适用于非线性问题，例如分离甜甜圈形状的点云，但在高维空间中很难立即发现。通常只有在看到LDA不起作用后才会理解此问题，但如果已知数据非常非线性，则这是反对LDA的有力证据。

此外，LDA可能对过度拟合敏感，需要仔细验证/测试。