最大熵模型和逻辑回归

10

我正在进行一个涉及自然语言处理的项目。为此,我正在使用斯坦福大学最大熵分类器。但我不确定最大熵模型和逻辑回归是否相同,或者它是一种特殊的逻辑回归。

有人能给出解释吗?


1
最大熵与多项式逻辑回归是相同的。 - NLPer
1
有时也被称为对数线性模型。 - Ben Allison
@NLPer,那么MaxEnt和Softmax是一样的吗? - Alcott
3个回答

6

这正是同一模型。自然语言处理领域更倾向于使用“最大熵”这个名称,并采用稀疏表达方式,允许在不直接投影到R^n空间的情况下计算所有内容(因为NLP通常具有大量特征和非常稀疏的向量)。


5

您可能想阅读此帖子中的附件,其中提供了一个简单的推导:

http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-models/

以下是来自《语音和语言处理》(作者:Daniel Jurafsky & James H. Martin)的解释:

每个特征都是指示函数,它挑选出训练观测值的一个子集。对于每个特征,我们在总分布上添加一个约束条件,指定该子集的分布应与我们在训练数据中看到的经验分布相匹配。然后,我们选择最大熵分布,否则符合这些约束条件。

Berger等人(1996)表明,此优化问题的解决方案实际上就是多项式 logistic 回归模型的概率分布,其权重 W 最大化训练数据的似然性!


3
  1. 在最大熵模型中,特征表示为f(x,y),这意味着您可以通过使用标签y和可观察的特征x来设计特征,而如果f(x,y) = x,则是逻辑回归中的情况。

  2. 在像POS这样的NLP任务中,常见的是组合标签来设计特征。例如:当前单词以“ous”结尾,下一个单词是名词。这可以成为预测当前单词是否为形容词的特征。


1
对于每个“类依赖”特征,逻辑回归存在等效的类独立特征集。这只涉及到稀疏性。 - lejlot
在运行最大熵分类器之后,给定每个类别的每个特征的权重,那么如何找出哪些是最佳特征,以便删除其他特征。@lejlot - Amrith Krishna
@AmrithKrishna,每个特征的权重绝对值是该特征重要性的指示。 - michaeltang
@michaeltang同意,但我每个特征都得到了5个权重(每个类别)。我应该如何找到相关的特征? - Amrith Krishna

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接