15得票4回答
在PCA图上测试聚类的显著性

在PCA图上,是否有可能测试两个已知组之间聚类的显著性?测试它们之间的接近程度或者扩散(方差)和聚类之间的重叠程度等。

15得票1回答
手动进行PCA逆变换

我正在使用scikit-learn。 我的应用程序的性质是,我离线拟合数据(offline),然后只能在线上(on the fly)使用生成的系数手动计算各种目标。 变换很简单,只需将 data * pca.components_ 相乘即可,即简单的点积。 但是,我不知道如何执行逆变换。哪...

15得票2回答
Python中处理带有缺失值的PCA

我正在尝试对一个掩码数组进行PCA分析。据我所知,如果原始的2D矩阵存在缺失值,则matplotlib.mlab.PCA无法工作。有没有人可以推荐在Python中处理带缺失值的PCA的方法? 谢谢。

15得票2回答
PCA和KNN算法

我正在使用KNN算法对手写数字进行分类。现在我还实现了PCA来减少维度。从256维降到了200维,但我只发现大约损失了0.10%的信息。我删掉了56个维度,难道损失不应该更大吗?只有当我降到5个维度时,才会出现约20%的信息损失。这种情况正常吗?

14得票2回答
Scikit-Learn PCA

我正在使用这里的输入数据(请参见第3.1节)。我试图使用scikit-learn复现它们的协方差矩阵、特征值和特征向量。然而,我无法复现数据源中呈现的结果。我还在其他地方看到过这个输入数据,但我无法确定是scikit-learn、我的步骤还是数据源的问题。data = np.array([[2...

14得票1回答
如何将Spark DataFrame转换为RDD MLlib LabeledPoints?

我尝试对我的数据应用PCA,然后对转换后的数据应用RandomForest。但是,PCA.transform(data) 给了我一个 DataFrame,而我需要一个mllib LabeledPoints来提供给我的RandomForest。我该怎么做?我的代码: import org....

14得票3回答
Sklearn中的PCA内存错误:备选降维方法?

我正在使用Sklearn中的PCA来降维一个非常大的矩阵,但是它会产生内存错误(所需的RAM超过128GB)。 我已经设置了copy=False,并且我正在使用计算量较小的随机PCA。 是否有解决方法?如果没有,还有哪些需要更少内存的降维技术可用。谢谢。 更新:我要对这个矩阵进行PCA...

14得票2回答
大数据上的增量PCA

我刚刚尝试使用sklearn.decomposition的IncrementalPCA,但它像PCA和RandomizedPCA一样抛出了MemoryError。我的问题是,我尝试加载的矩阵太大无法放入RAM中。现在它作为形状为~(1000000,1000)的数据集存储在hdf5数据库中,因此...

13得票5回答
如何实现ZCA白化?Python

我正在尝试实现 ZCA白化,并找到一些文章来进行实现,但它们有点令人困惑..有人能帮忙吗? 非常感谢任何提示或帮助! 这是我读过的文章: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf http://bbabenko.tu...

12得票1回答
scikit-learn中TruncatedSVD的解释方差比率未按降序排列

TruncatedSVD的解释方差比并不像sklearn的PCA那样按降序排列。我查看了源代码,发现它们使用了不同的计算解释方差比的方法: TruncatedSVD:U, Sigma, VT = randomized_svd(X, self.n_components, ...