Python NLTK 中的平滑处理

Question

4

我正在使用Python中的朴素贝叶斯分类器进行文本分类。是否有平滑方法来避免在Python NLTK中未见过的单词出现零概率？提前致谢！

- Aikin

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- oroszgy · Accepted Answer

我建议将所有低频（特别是1）的单词替换为<unseen>，然后在这些数据上训练分类器。在分类时，如果遇到不在训练数据中的单词，应该查询模型是否包含<unseen>。