我有一个问题,我正在使用数据集中所有URL的主机名作为特征。我无法弄清如何使用TfidfVectorizer仅从URL中提取主机名并计算其权重。
例如,我有一个数据框df,其中列'url'包含了我需要的所有URL。我认为我需要做类似以下的事情:
这种方法似乎行不通,因为它会将主机名拆分而不是将其作为整个字符串处理。我认为这与analyzer='word'有关(默认情况下是这样),它会将字符串拆分成单词。任何帮助都将不胜感激,谢谢!
例如,我有一个数据框df,其中列'url'包含了我需要的所有URL。我认为我需要做类似以下的事情:
def preprocess(t):
return urlparse(t).hostname
tfv = TfidfVectorizer(preprocessor=preprocess)
tfv.fit_transform([t for t in df['url']])
这种方法似乎行不通,因为它会将主机名拆分而不是将其作为整个字符串处理。我认为这与analyzer='word'有关(默认情况下是这样),它会将字符串拆分成单词。任何帮助都将不胜感激,谢谢!