Scikit-learn中的tfidf向量化器是否支持小批量处理？

Question

3

我一直在尝试对一个大语料库执行tf-idf启发式算法。

我是否可以迭代地读取文档，并调用

vectorizer.fit()

每次迭代？这只考虑当前迭代还是记住以前的迭代？

谢谢！

- sdgaw erzswer

每次调用fit时，词汇表都将从头开始初始化，因此这不是一个选项。 - benbo

那么解决方案是什么？ - sdgaw erzswer

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- benbo · Accepted Answer

你的问题的解决方案将取决于你的特定应用程序。你可以考虑使用gensim的tfidf实现，它更有效率，不需要在内存中保存整个语料库，如this post所解释的那样。