我正在使用scikit-learn对文本文档进行聚类。我使用CountVectorizer、TfidfTransformer和MiniBatchKMeans类来帮助我完成这个任务。
由于系统中不断添加新的文本文档,因此我需要使用上述类来转换文本并预测聚类。我的问题是:我应该如何将数据存储在磁盘上?
我应该只是pickle向量化器、转换器和kmeans对象吗?
还是我只需保存数据?如果是这样,我如何将其添加回向量化器、转换器和kmeans对象中?
非常感谢您的帮助。
非常感谢您的帮助。
我认为在使用sk-learn时,通常的答案是要使用pickle并祈祷。
对我来说,这似乎非常脆弱,与具有文档化的序列化格式相比,后者不依赖于实现细节。但也许他们知道这一点,并且不会对其类进行不兼容的更改?