我该如何从pandas数据框中计算主成分分析?
我该如何从pandas数据框中计算主成分分析?
大多数 sklearn 对象与 pandas
数据框一起使用非常好,这种方法是否适合您?
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
df = pd.DataFrame(data=np.random.normal(0, 1, (20, 10)))
pca = PCA(n_components=5)
pca.fit(df)
您可以通过以下方式访问组件本身:
pca.components_
df = pandas.DataFrame(pca.components_)
。还有一点需要注意的是,如果你想要使用这个新的df
进行点积,确保查看这个链接:[https://dev59.com/TmQn5IYBdhLWcg3w7KrS#16473007]。 - rajanimport pandas
from sklearn.decomposition import PCA
import numpy
import matplotlib.pyplot as plot
df = pandas.DataFrame(data=numpy.random.normal(0, 1, (20, 10)))
# You must normalize the data before applying the fit method
df_normalized=(df - df.mean()) / df.std()
pca = PCA(n_components=df.shape[1])
pca.fit(df_normalized)
# Reformat and view results
loadings = pandas.DataFrame(pca.components_.T,
columns=['PC%s' % _ for _ in range(len(df_normalized.columns))],
index=df.columns)
print(loadings)
plot.plot(pca.explained_variance_ratio_)
plot.ylabel('Explained Variance')
plot.xlabel('Components')
plot.show()