问题:在对800万个特征应用PCA时,出现了OutOfMemory错误。
这是我的代码片段:
from sklearn.decomposition import PCA as sklearnPCA
sklearn_pca = sklearnPCA(n_components=10000)
pca_tfidf_sklearn = sklearn_pca.fit(traindata_tfidf.toarray())
我希望能够使用PCA /降维技术来处理提取的文本特征(使用tf-idf)。目前我有大约800万个这样的特征,我想要减少这些特征并使用MultiNomialNB对文档进行分类。
但是,我因为内存不足的错误而卡住了。
RandomizedPCA
,它的fit_transform
方法肯定支持稀疏数据。 - cyberj0g