最大熵模型和逻辑回归

Question

最大熵模型和逻辑回归

machine-learningnlpstanford-nlplogistic-regression

10

我正在进行一个涉及自然语言处理的项目。为此，我正在使用斯坦福大学最大熵分类器。但我不确定最大熵模型和逻辑回归是否相同，或者它是一种特殊的逻辑回归。

有人能给出解释吗？

- Amrith Krishna

1

最大熵与多项式逻辑回归是相同的。 - NLPer

1

有时也被称为对数线性模型。 - Ben Allison

@NLPer，那么MaxEnt和Softmax是一样的吗？ - Alcott

3个回答

5

您可能想阅读此帖子中的附件，其中提供了一个简单的推导：

http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-models/

以下是来自《语音和语言处理》（作者：Daniel Jurafsky & James H. Martin）的解释：

每个特征都是指示函数，它挑选出训练观测值的一个子集。对于每个特征，我们在总分布上添加一个约束条件，指定该子集的分布应与我们在训练数据中看到的经验分布相匹配。然后，我们选择最大熵分布，否则符合这些约束条件。

Berger等人（1996）表明，此优化问题的解决方案实际上就是多项式 logistic 回归模型的概率分布，其权重 W 最大化训练数据的似然性！

- misssprite

3

在最大熵模型中，特征表示为f(x,y)，这意味着您可以通过使用标签y和可观察的特征x来设计特征，而如果f(x,y) = x，则是逻辑回归中的情况。
在像POS这样的NLP任务中，常见的是组合标签来设计特征。例如：当前单词以“ous”结尾，下一个单词是名词。这可以成为预测当前单词是否为形容词的特征。

- michaeltang

1

对于每个“类依赖”特征，逻辑回归存在等效的类独立特征集。这只涉及到稀疏性。 - lejlot

在运行最大熵分类器之后，给定每个类别的每个特征的权重，那么如何找出哪些是最佳特征，以便删除其他特征。@lejlot - Amrith Krishna

@AmrithKrishna，每个特征的权重绝对值是该特征重要性的指示。 - michaeltang

@michaeltang同意，但我每个特征都得到了5个权重（每个类别）。我应该如何找到相关的特征？ - Amrith Krishna

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- lejlot · Accepted Answer

这正是同一模型。自然语言处理领域更倾向于使用“最大熵”这个名称，并采用稀疏表达方式，允许在不直接投影到R^n空间的情况下计算所有内容（因为NLP通常具有大量特征和非常稀疏的向量）。