我的两个文档如下:
ખુબ વખાણ કરે છે
ખુબ વધારે છે
我使用的代码是:
vectorizer = TfidfVectorizer(tokenizer=tokenize_words, sublinear_tf=True, use_idf=True, smooth_idf=False)
这里,tokenize_words
是我用来分词的函数。
我的数据的 TF-IDF 列表如下:
[[ 0.6088451 0.35959372 0.35959372 0.6088451 0. ]
[ 0. 0.45329466 0.45329466 0. 0.76749457]]
功能列表如下:
['કરે', 'ખુબ', 'છે.', 'વખાણ', 'વધારે']
idf的价值:
{'વખાણ': 1.6931471805599454, 'છે.': 1.0, 'કરે': 1.6931471805599454, 'વધારે': 1.6931471805599454, 'ખુબ': 1.0}
请您解释一下,在这个例子中,每个文档中的每个单词应该有什么样的词频。