我正在使用Python中的朴素贝叶斯分类器进行文本分类。是否有平滑方法来避免在Python NLTK中未见过的单词出现零概率?提前致谢!
我建议将所有低频(特别是1)的单词替换为<unseen>,然后在这些数据上训练分类器。在分类时,如果遇到不在训练数据中的单词,应该查询模型是否包含<unseen>。
<unseen>