Scikit-learn中的tfidf向量化器是否支持小批量处理?

3
我一直在尝试对一个大语料库执行tf-idf启发式算法。
我是否可以迭代地读取文档,并调用
vectorizer.fit()

每次迭代?这只考虑当前迭代还是记住以前的迭代?

谢谢!


每次调用fit时,词汇表都将从头开始初始化,因此这不是一个选项。 - benbo
那么解决方案是什么? - sdgaw erzswer
1个回答

1
你的问题的解决方案将取决于你的特定应用程序。你可以考虑使用gensim的tfidf实现,它更有效率,不需要在内存中保存整个语料库,如this post所解释的那样。

谢谢!这正是我想要的。 - sdgaw erzswer

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接