我正在尝试使用tf-idf构建单词词典。然而,从直觉上来看,它并没有意义。如果tf-idf中的逆文档频率(idf)部分计算一个术语与整个语料库相关性的话,那么这意味着一些重要的单词可能具有较低的相关性。如果我们看一个法律文件的语料库,像"许可证"或"法律"这样的术语可能会出现在每个文件中。由于idf的缘故,这些术语的得分将非常低。然而,从直觉上来说,这些术语应该具有更高的得分,因为它们显然是法律术语。tf-idf是否是构建术语词典的不良方法?
是的,这些术语是法律术语。然而,tf-idf并不试图评估它们是否适用于特定领域。它们有助于从该领域中分离文档。如果像“法律”这样的术语在每个文档中都出现,它们将无法帮助分类器区分这些文档。但是,如果您将法律文件与随机文件混合在一起,您会发现它们突然变得非常相关。正是因为它们允许您区分法律文件和其他文件。在实践中,它们更通常用于删除“某种程度上”的停用词。例如,“the”出现在每个文档中,没有任何意义。无论tf-idf是否适用于构建字典都很大程度取决于您想在此之后做什么。