TFIDF:TF实现

3

我正在实现一个分类工具,并尝试使用不同的TF版本:两个对数版本(在/在对数调用内部进行校正),标准化,增强和对数平均值。显然,这些模型的性能差异很大,可以高达5%。然而,奇怪的是,我无法预先确定哪个版本会在给定的数据集上表现更好。我想知道是否有我遗漏的工作,或者,也许有人可以分享使用这些模型的经验?

2个回答

2
事实上,事先很难确定哪种加权方案最有效。总的来说,不存在免费午餐——在一个数据集中表现最好的算法可能对另一个数据集来说是可怕的。更重要的是,我们并不谈论根本不同的选择。TF-IDF体现了关于分类/检索的一种具体直觉,它的所有不同变体都有点相似。唯一的方法就是进行实验。
附注:在术语上,当你说显著时,你是否进行了交叉验证或随机重采样的统计显著性测试?你看到的差异可能是由于偶然原因造成的。

我在训练数据集(500个实例)上训练分类器,并在测试数据集上进行测试:两者不重叠。使用625个实例的测试集,由于TF实现的原因,出现32个错误似乎是相当显著的。 - seninp

1

基本上,将给定术语添加到文档中的重要性增加应随术语出现次数的增加而降低。例如,在文档中出现两次的“汽车”意味着该术语比仅出现一次更重要。但是,如果将出现20次的术语与出现19次的相同术语进行比较,则这种差异应更小。

通过指定不同的归一化方式,您正在定义TF值在某一点饱和的速度有多快。

您可以尝试将自己的发现与每个文档的平均TF或类似指标的某些信息相关联。


这很有道理,谢谢。因此,性能差异可能是由于术语权重饱和度的速度不同造成的。 我还想知道是否可以指出一些解释这些模型的工作(不确定使用这个词是否正确)? - seninp
我很抱歉,我还没有找到任何相关的优秀论文... 你可以尝试搜索加权方案、特征加权或归一化,或许能找到一些相关资料。 - miguelmalvarez

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接