在词性标注器中,使用隐马尔可夫模型确定给定句子的最佳可能标记。
P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
T
但是,当“Word”未出现在训练语料库中时,“P(Word / Tag)”对于所有可能的标记都会产生零,这样就没有选择最佳标记的余地了。
我尝试过几种方法:
1)为所有未知单词分配一小部分概率,即"P(UnknownWord/AnyTag)~Epsilon"。这完全忽略了未知单词的"P(Word/Tag)",而是通过分配常数概率来进行决策制定。正如预期的那样,它并没有产生良好的结果。
2)拉普拉斯平滑:我对此感到困惑。我不知道这与(1)有什么区别。我理解的拉普拉斯平滑是将常数概率(lambda)添加到所有未知和已知单词中。因此,所有未知单词将获得常数概率(lambda的一小部分),而已知单词的概率相对相同,因为所有单词的概率都增加了Lambda。
*)是否有更好的处理未知单词的方法?