使用pandas数据框进行主成分分析

Question

使用pandas数据框进行主成分分析

pythonpandaspcascientific-computingprincipal-components

68

我该如何从pandas数据框中计算主成分分析？

- user3362813

我猜你也在尝试修改w3schools的例子 :) - Sridhar Sarnobat

2个回答

8

import pandas
from sklearn.decomposition import PCA
import numpy
import matplotlib.pyplot as plot

df = pandas.DataFrame(data=numpy.random.normal(0, 1, (20, 10)))

# You must normalize the data before applying the fit method
df_normalized=(df - df.mean()) / df.std()
pca = PCA(n_components=df.shape[1])
pca.fit(df_normalized)

# Reformat and view results
loadings = pandas.DataFrame(pca.components_.T,
columns=['PC%s' % _ for _ in range(len(df_normalized.columns))],
index=df.columns)
print(loadings)

plot.plot(pca.explained_variance_ratio_)
plot.ylabel('Explained Variance')
plot.xlabel('Components')
plot.show()

- NL23codes

PCA 中的 whiten=True 参数会为您进行归一化，如果需要的话。 - leitungswasser

如果有疑问，就进行规范化处理，否则您的数据可能会有两个不同的比例。例如，如果一个列中有年龄，另一个列中有人口，则这是两种不同的度量比例，需要进行规范化处理才能运行PCA。 - NL23codes

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Akavall · Accepted Answer

大多数 sklearn 对象与 pandas 数据框一起使用非常好，这种方法是否适合您？

import pandas as pd
import numpy as np
from sklearn.decomposition import PCA

df = pd.DataFrame(data=np.random.normal(0, 1, (20, 10)))

pca = PCA(n_components=5)
pca.fit(df)

您可以通过以下方式访问组件本身：

pca.components_