用于术语提取的tf-idf背后的直觉

6
我正在尝试使用tf-idf构建单词词典。然而,从直觉上来看,它并没有意义。如果tf-idf中的逆文档频率(idf)部分计算一个术语与整个语料库相关性的话,那么这意味着一些重要的单词可能具有较低的相关性。如果我们看一个法律文件的语料库,像"许可证"或"法律"这样的术语可能会出现在每个文件中。由于idf的缘故,这些术语的得分将非常低。然而,从直觉上来说,这些术语应该具有更高的得分,因为它们显然是法律术语。tf-idf是否是构建术语词典的不良方法?
1个回答

5
是的,这些术语是法律术语。然而,tf-idf并不试图评估它们是否适用于特定领域。它们有助于从该领域中分离文档。如果像“法律”这样的术语在每个文档中都出现,它们将无法帮助分类器区分这些文档。但是,如果您将法律文件与随机文件混合在一起,您会发现它们突然变得非常相关。正是因为它们允许您区分法律文件和其他文件。
在实践中,它们更通常用于删除“某种程度上”的停用词。例如,“the”出现在每个文档中,没有任何意义。
无论tf-idf是否适用于构建字典都很大程度取决于您想在此之后做什么。

我更倾向于使用文档语料库创建一个所有法律术语的字典作为训练集。但你说得对,如果我已经有这些术语,那么将法律文件与非法律文件分开会更有帮助。 - jCoder
1
TFxIDF的一个有用之处是隔离法律术语。建立一个非法律文件的独立基础(维基百科热门文章,经过审核以删除法律主题?)并从中创建您的IDF值。现在将其应用于您的法律文件集合的TFxIDF计算中。专属法律术语将具有高IDF,因此会突出显示,而通常跨越各个领域的常见单词将具有低IDF,并且倾向于沉到底部,即使TF很高。 - tripleee
挑剔一点:它是TF/DF或TFxIDF,其中IDF定义为1/DF。 - tripleee

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接