我正在尝试在TfidfVectorizer中删除英语和法语的停用词。到目前为止,我只成功地从英语中删除了停用词。当我尝试输入法语停用词时,我收到一个错误消息,说它不是内置的。
实际上,我得到了以下错误消息:
ValueError: not a built-in stop list: french
我有一个文本文件,包含700行混合法语和英语的文本。
我正在使用Python进行这700行的聚类项目。然而,我的聚类出现了问题:我得到了满是法语停用词的聚类,这破坏了我的聚类效果。
我的问题如下:
有没有办法添加法语停用词或手动更新内置的英语停用词列表,以便我可以摆脱这些不必要的单词?
以下是包含我的停用词代码的TfidfVectorizer代码:
tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000,
min_df=0.2, stop_words='english',
use_idf=True, tokenizer=tokenize_and_stem,
ngram_range=(1,3))
去除这些法语停用词将使我能够拥有代表在我的文档中反复出现的单词的簇。如果对此问题的相关性有任何疑问,我上周已提出过类似的问题。然而,它与使用TfidfVectorizer不同。非常感谢您的帮助。谢谢。