区分tf-idf文档相似度和朴素贝叶斯分类器。

3

我该如何选择tf-idf文档相似度和朴素贝叶斯分类器?我不明白该使用哪一个,有没有一种方法可以确定哪种算法适用于什么目的?


1
你想要解决什么问题?你需要展示一些最基本的编程尝试,这样我们才能回答任何问题。 - jeremyjjbrown
我有一个维基百科的数据集,其中包含苹果电脑(Mac)和苹果水果。我需要将输入数据分类到这两个类别之一。 - madan ram
1个回答

5

你不需要这样做。

词频逆文档频率是一种为特征分配数值的方法。它(大多数情况下)与用于分类数据点的方法无关。

我认为你指的是余弦相似度和最近邻分类。

如果你正在进行分类,你会选择看起来能给你最好准确度的方法(或最符合你的要求)。在存在非常大的数据集的情况下,计算每个文档与你的数据集中的所有文档的余弦相似度会变得很困难。

如果你指的是余弦相似度用于排名结果(查找与Q相似的文档),那么就没有“选择”了。那是一个排名任务,朴素贝叶斯是用于分类的。

在现实生活中,这两种方法都不是特别好的。你只会使用它们来初步了解任务的难易程度,通过尝试简单的方法来解决问题。如果有一个“愚蠢”的方法比其他方法表现更好,你可能会考虑尝试更高级的模型,这些模型与最好的“愚蠢”方法相关。


1
提问者可能是指信息检索,其中使用余弦相似度和朴素贝叶斯测量查询相似度都是有效的选择。不过需要说明应用场景是什么... - Ben Allison

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接