我的模型中的某些特征生成需要一些时间,因此为了快速尝试多个功能和参数,将它们保存到磁盘以供以后使用是一个好主意。
以一个具体的例子来说(摘自 这里),假设我有以下管道:
pipeline = Pipeline([
('extract_essays', EssayExractor()),
('features', FeatureUnion([
('ngram_tf_idf', Pipeline([
('counts', CountVectorizer()),
('tf_idf', TfidfTransformer())
])),
('essay_length', LengthTransformer()),
('misspellings', MispellingCountTransformer())
])),
('classifier', MultinomialNB())
])
我想将 CountVectorizer()
更改为 CountVectorizer(max_features=1000)
,然后只需要重新计算 CountVectorizer
和 MultinomialNB
,因为在它之前的参数或转换已经发生了更改。
有没有办法实现这个操作?
Memory.cache
的部分内容,所以它已经派上用场,避免了重复工作。 - simonzack