我正在进行一个涉及自然语言处理的项目。为此,我正在使用斯坦福大学最大熵分类器。但我不确定最大熵模型和逻辑回归是否相同,或者它是一种特殊的逻辑回归。
有人能给出解释吗?
我正在进行一个涉及自然语言处理的项目。为此,我正在使用斯坦福大学最大熵分类器。但我不确定最大熵模型和逻辑回归是否相同,或者它是一种特殊的逻辑回归。
有人能给出解释吗?
这正是同一模型。自然语言处理领域更倾向于使用“最大熵”这个名称,并采用稀疏表达方式,允许在不直接投影到R^n空间的情况下计算所有内容(因为NLP通常具有大量特征和非常稀疏的向量)。
您可能想阅读此帖子中的附件,其中提供了一个简单的推导:
http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-models/以下是来自《语音和语言处理》(作者:Daniel Jurafsky & James H. Martin)的解释:
每个特征都是指示函数,它挑选出训练观测值的一个子集。对于每个特征,我们在总分布上添加一个约束条件,指定该子集的分布应与我们在训练数据中看到的经验分布相匹配。然后,我们选择最大熵分布,否则符合这些约束条件。
Berger等人(1996)表明,此优化问题的解决方案实际上就是多项式 logistic 回归模型的概率分布,其权重 W 最大化训练数据的似然性!
在最大熵模型中,特征表示为f(x,y),这意味着您可以通过使用标签y和可观察的特征x来设计特征,而如果f(x,y) = x,则是逻辑回归中的情况。
在像POS这样的NLP任务中,常见的是组合标签来设计特征。例如:当前单词以“ous”结尾,下一个单词是名词。这可以成为预测当前单词是否为形容词的特征。