如何最有效地序列化scikit-learn分类器?
我目前正在使用Python的标准Pickle模块来序列化文本分类器,但这会导致一个非常大的pickle文件。序列化对象可以达到100MB或更多,这似乎过于浪费时间和存储空间。我之前用Weka做了类似的工作,相应的序列化分类器通常只有几MB。
scikit-learn是否可能在pickle中缓存训练数据或其他无关信息?如果是,如何加速和减小序列化scikit-learn分类器的大小?
classifier = Pipeline([
('vectorizer', CountVectorizer(ngram_range=(1,4))),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC())),
])