使用pandas分割DataFrame行

Question

使用pandas分割DataFrame行

3

我目前正在寻求一种有效的方法将单个pandas DataFrame行拆分为多个略有不同的行。想象这样的结构：

    A  C1  C2  C3  C4
1   a   b   c   a
2   b   a   e   b   a
3   g   c
4   d   e

我希望你最终能够得到这样的结构：

：

    A   C
1   a   b
2   a   c
3   a   a
4   b   a
5   b   e
6   b   b
7   b   a
8   g   c
9   d   e
10  d   e

到目前为止，我一直在使用for循环来创建数据字典（df是我的数据框）：

rows = []
for i, r in df.iterrows():
  tmp = r[1:].dropna()
  for c in tmp.values:
    dict = {'A': r[0], 'C': c}
    rows.append(dict)

很不幸，这种方法非常缓慢。到目前为止，在使用 pandas 时只使用它可以显著提高执行时间，但我没有足够的经验来找出如何使此案例更快。

有人能给些建议吗？可以采取什么措施加速？

- sebap123

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MaxU - stand with Ukraine · Accepted Answer

试试这个：

In [10]: pd.melt(df, id_vars='A', value_vars=['C1','C2','C3','C4'])
Out[10]:
    A variable value
0   a       C1     b
1   b       C1     a
2   g       C1     c
3   d       C1     e
4   a       C2     c
5   b       C2     e
6   g       C2   NaN
7   d       C2   NaN
8   a       C3     a
9   b       C3     b
10  g       C3   NaN
11  d       C3   NaN
12  a       C4   NaN
13  b       C4     a
14  g       C4   NaN
15  d       C4   NaN

如果你想消除NaN：

In [15]: pd.melt(df, id_vars='A', value_vars=['C1','C2','C3','C4'], value_name='C')[['A','C']].dropna()
Out[15]:
    A  C
0   a  b
1   b  a
2   g  c
3   d  e
4   a  c
5   b  e
8   a  a
9   b  b
13  b  a

相同的操作，但动态地选择 C* 列:

In [21]: (pd.melt(df, id_vars='A',
   ....:          value_vars=df.filter(like='C').columns.tolist(),
   ....:          value_name='C')[['A','C']]
   ....:    .dropna()
   ....: )
Out[21]:
    A  C
0   a  b
1   b  a
2   g  c
3   d  e
4   a  c
5   b  e
8   a  a
9   b  b
13  b  a