机器学习分类器(LG、SVM 和决策树)的主要假设

7
在传统的统计学中,人们通常会说明假设了哪些前提条件(即数据的正态性和线性性、数据的独立性)。但是在我阅读机器学习教材和教程时,这些底层假设并不总是明确或完全陈述。以下是用于二元分类的几种主要ML分类器的基本假设以及哪些假设不太重要,哪些必须严格遵守:
- 逻辑回归 - 支持向量机(线性和非线性核) - 决策树
2个回答

2

IID是几乎所有统计学习方法的基本假设。

逻辑回归是GLM(广义线性模型)的特殊情况。因此,尽管存在一些技术要求,但最严格的限制在于数据分布的具体分布。数据必须服从指数家族分布。您可以在https://en.wikipedia.org/wiki/Generalized_linear_model上深入了解,斯坦福CS229讲义1也有对此主题的出色涵盖。

SVM对输入数据非常宽容,特别是软边缘版本。我不记得有任何特定数据假设被采取了(请纠正我)。

决策树讲述了与SVM相同的故事。


2

好问题。

逻辑回归还假设以下内容:

  1. 独立变量之间没有(或者很少)多重共线性(高相关性)。

  2. 尽管逻辑回归不要求因变量和自变量成线性关系,但是它确实要求自变量与对数几率成线性关系。对数几率函数简单地表示为 log(p/1-p)


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接