如何用多个numpy 1d数组创建pandas DataFrame?

7
我已经创建了一些np.array来进行计算(所有数组都具有相同的大小[100,1]),现在我想创建一个pandas DataFrame,每个数组应该是该DF的一列。 数组的名称应该是DataFrame的标题。
在Matlab中,我会轻松地这样做:
Table = table(array1,array2,array3 ...);
请问我如何在Python中实现这一功能?
提前致谢!

啊,抱歉我误读了你的问题。你需要重塑数组以使用我提供的语法。 - Andrew L
2个回答

8
假设这是你的数组:
arr1, arr2, arr3 = np.zeros((3, 100, 1))

arr1.shape
Out: (100, 1)

你可以使用 hstack 来将它们堆叠起来,并将结果的 2D 数组传递给 DataFrame 构造函数:
df = pd.DataFrame(np.hstack((arr1, arr2, arr3)))

df.head()
Out: 
     0    1    2
0  0.0  0.0  0.0
1  0.0  0.0  0.0
2  0.0  0.0  0.0
3  0.0  0.0  0.0
4  0.0  0.0  0.0

或者将列命名为arr1arr2等:
df = pd.DataFrame(np.hstack((arr1, arr2, arr3)), 
                  columns=['arr{}'.format(i+1) for i in range(3)])

这提供了

df.head()
Out: 
   arr1  arr2  arr3
0   0.0   0.0   0.0
1   0.0   0.0   0.0
2   0.0   0.0   0.0
3   0.0   0.0   0.0
4   0.0   0.0   0.0

谢谢,很好用!是否可能使标题栏使用数组名称而不是 0、1、2? - laurenz
在Python中,对象的名称只是引用。一个对象可能有多个名称。因此,没有简单的方法来获取变量名,比如arr1。您可以在globals()中迭代名称,但不建议这样做。您的变量名称是否具有结构?如果是这样,那么构建名称而不是提取它们就很容易了。(例如arr1、arr2、arr3...) - ayhan
谢谢。不,它们是真实的名称。所以我认为我确实需要在数据框中重新命名它们。 - laurenz

2

使用numpy.concatenate解决2D数组和DataFrame构造函数的问题:

df = pd.DataFrame(np.concatenate([arr1, arr2, arr3], axis=1), columns= ['a','b','c'])

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接