给定以下代码:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import urllib.request # the lib that handles the url stuff
from bs4 import BeautifulSoup
import unicodedata
def remove_control_characters(s):
base = ""
for ch in s:
if unicodedata.category(ch)[0]!="C":
base = base + ch.lower()
else:
base = base + " "
return base
moby_dick_url='http://www.gutenberg.org/files/2701/2701-0.txt'
soul_of_japan = 'http://www.gutenberg.org/files/12096/12096-0.txt'
def extract_body(url):
with urllib.request.urlopen(url) as s:
data = BeautifulSoup(s).body()[0].string
stripped = remove_control_characters(data)
return stripped
moby = extract_body(moby_dick_url)
bushido = extract_body(soul_of_japan)
corpus = [moby,bushido]
vectorizer = TfidfVectorizer(use_idf=False, smooth_idf=True)
tf_idf = vectorizer.fit_transform(corpus)
df_tfidf = pd.DataFrame(tf_idf.toarray(), columns=vectorizer.get_feature_names(), index=["Moby", "Bushido"])
df_tfidf[["the", "whale"]]
我本来期望在《白鲸》中,“鲸”这个词的tf-idf得分相对较高,但在《武士道:日本的灵魂》中得分较低,“the”这个词在两本书中都得分较低。然而,实际结果与我的预期相反。计算出来的结果如下:
| | the | whale |
|-------|-----------|----------|
|Moby | 0.707171 | 0.083146 |
|Bushido| 0.650069 | 0.000000 |
这对我来说毫无意义。有人能指出我在思考或编码中犯的错误吗?
use_idf=False
的问题,这是我为了看看设置是否有任何区别而进行的实验的反映。正如你上面提到的第二个原因,确实没有区别。 - James Hamiltonlog(N/(nt+1))
的idf公式,因为如果使用Sparck-Jones的原始公式,一个出现在所有文档中的单词会导致log(N/N) = 0
。 - James HamiltonTfidfVectorizer
和标准Tf-idf公式之间结果的有趣比较。 - Chris