我正在实现一个分类工具,并尝试使用不同的TF版本:两个对数版本(在/在对数调用内部进行校正),标准化,增强和对数平均值。显然,这些模型的性能差异很大,可以高达5%。然而,奇怪的是,我无法预先确定哪个版本会在给定的数据集上表现更好。我想知道是否有我遗漏的工作,或者,也许有人可以分享使用这些模型的经验?
我正在实现一个分类工具,并尝试使用不同的TF版本:两个对数版本(在/在对数调用内部进行校正),标准化,增强和对数平均值。显然,这些模型的性能差异很大,可以高达5%。然而,奇怪的是,我无法预先确定哪个版本会在给定的数据集上表现更好。我想知道是否有我遗漏的工作,或者,也许有人可以分享使用这些模型的经验?
基本上,将给定术语添加到文档中的重要性增加应随术语出现次数的增加而降低。例如,在文档中出现两次的“汽车”意味着该术语比仅出现一次更重要。但是,如果将出现20次的术语与出现19次的相同术语进行比较,则这种差异应更小。
通过指定不同的归一化方式,您正在定义TF值在某一点饱和的速度有多快。
您可以尝试将自己的发现与每个文档的平均TF或类似指标的某些信息相关联。