为了教程的目的,我希望手动实现
然而,现在我有点困惑:
TfidfVectorizer
的功能,以展示背后发生的事情。在这篇Stack Overflow文章中,我找到了TfidfVectorizer
的工作原理。有了这个,用一种简单的方式实现它并使用正确的参数设置向量化器,输出确实是相同的。一切都很好。然而,现在我有点困惑:
TfidfVectorizer
使用CountVevtorizer
计算词项频率tf
。这意味着tf
只是表示文档中一个词出现次数的整数。但通常术语频率tf(t,d)
被定义为:tf(t,d) = (#occurrences of t in d) / (#terms in d)
因此,词频是介于0和1之间的值。
这是如何配合使用的呢?为什么要使用TfidfVectorizer
来计算单词出现次数而不是根据定义使用(归一化的)频率。我想这不是一个大问题,但我希望理解它。