标签列表
Scikit-learn中的tfidf向量化器是否支持小批量处理?
scikit-learn
tf-idf
3
3
我一直在尝试对一个大语料库执行tf-idf启发式算法。
我是否可以迭代地读取文档,并调用
vectorizer.fit()
每次迭代?这只考虑当前迭代还是记住以前的迭代?
谢谢!
-
sdgaw erzswer
2
每次调用fit时,词汇表都将从头开始初始化,因此这不是一个选项。
- benbo
那么解决方案是什么?
- sdgaw erzswer
1
个回答
1
1
你的问题的解决方案将取决于你的特定应用程序。你可以考虑使用gensim的tfidf实现,它更有效率,不需要在内存中保存整个语料库,如
this post
所解释的那样。
-
benbo
1
谢谢!这正是我想要的。
- sdgaw erzswer
回答链接
网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接
相关问题
10
Scikit-learn分类器的小批量训练,我提供小批量数据集
4
如何在sklearn的TFIDF向量化器中使用管道返回数据框?
8
spaCy 和 scikit-learn 向量化器
7
Scikit-learn是否支持处理大量数据样本的SVM/小批量处理?
16
Sklearn TFIDF向量化器以并行作业运行
13
计数向量化器和使用use_idf=false的tfidf向量化器是否相同?
3
如何减少Scikit-Learn向量化器的内存使用?
6
如何分布式处理小批量k均值(scikit-learn)?
3
如何在scikit learn中保存TFIDF向量化器?
20
使用TFIDF向量化器获取所选特征名称