我该如何选择tf-idf文档相似度和朴素贝叶斯分类器?我不明白该使用哪一个,有没有一种方法可以确定哪种算法适用于什么目的?
我该如何选择tf-idf文档相似度和朴素贝叶斯分类器?我不明白该使用哪一个,有没有一种方法可以确定哪种算法适用于什么目的?
你不需要这样做。
词频逆文档频率是一种为特征分配数值的方法。它(大多数情况下)与用于分类数据点的方法无关。
我认为你指的是余弦相似度和最近邻分类。
如果你正在进行分类,你会选择看起来能给你最好准确度的方法(或最符合你的要求)。在存在非常大的数据集的情况下,计算每个文档与你的数据集中的所有文档的余弦相似度会变得很困难。
如果你指的是余弦相似度用于排名结果(查找与Q相似的文档),那么就没有“选择”了。那是一个排名任务,朴素贝叶斯是用于分类的。
在现实生活中,这两种方法都不是特别好的。你只会使用它们来初步了解任务的难易程度,通过尝试简单的方法来解决问题。如果有一个“愚蠢”的方法比其他方法表现更好,你可能会考虑尝试更高级的模型,这些模型与最好的“愚蠢”方法相关。