在传统的统计学中,人们通常会说明假设了哪些前提条件(即数据的正态性和线性性、数据的独立性)。但是在我阅读机器学习教材和教程时,这些底层假设并不总是明确或完全陈述。以下是用于二元分类的几种主要ML分类器的基本假设以及哪些假设不太重要,哪些必须严格遵守:
- 逻辑回归 - 支持向量机(线性和非线性核) - 决策树
- 逻辑回归 - 支持向量机(线性和非线性核) - 决策树
IID是几乎所有统计学习方法的基本假设。
逻辑回归是GLM(广义线性模型)的特殊情况。因此,尽管存在一些技术要求,但最严格的限制在于数据分布的具体分布。数据必须服从指数家族分布。您可以在https://en.wikipedia.org/wiki/Generalized_linear_model上深入了解,斯坦福CS229讲义1也有对此主题的出色涵盖。
SVM对输入数据非常宽容,特别是软边缘版本。我不记得有任何特定数据假设被采取了(请纠正我)。
决策树讲述了与SVM相同的故事。
好问题。
逻辑回归还假设以下内容:
独立变量之间没有(或者很少)多重共线性(高相关性)。
尽管逻辑回归不要求因变量和自变量成线性关系,但是它确实要求自变量与对数几率成线性关系。对数几率函数简单地表示为 log(p/1-p)
。