如何将一系列元组转换为Pandas数据帧?

10
假设我们有以下 pandas series,其是在对 dataframe 进行 groupby 后应用 apply 函数的结果。
<class 'pandas.core.series.Series'>
0        (1, 0, [0.2, 0.2, 0.2], [0.2, 0.2, 0.2])
1     (2, 1000, [0.6, 0.7, 0.5], [0.1, 0.3, 0.1])
2        (1, 0, [0.4, 0.4, 0.4], [0.4, 0.4, 0.4])
3        (1, 0, [0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
4    (3, 14000, [0.8, 0.8, 0.8], [0.6, 0.6, 0.6])
dtype: object

当给定sigList=['sig1','sig2', 'sig3']时,我们可以将其转换为数据框吗?
Length Distance sig1Max sig2Max sig3Max sig1Min sig2Min sig3Min
1 0 0.2 0.2 0.2 0.2 0.2 0.2                  
2 1000 0.6 0.7 0.5 0.1 0.3 0.1
1 0 0.4 0.4 0.4 0.4 0.4 0.4
1 0 0.5 0.5 0.5 0.5 0.5 0.5
3 14000 0.8 0.8 0.8 0.6 0.6 0.6

提前致谢


def myfunc(x,signatures): return x.shape[0], x['start'].iloc[-1] - x['start'].iloc[0], x[signatures].agg(max), x[signatures].agg(min)这个函数会创建元组列表。我们能否在返回语句中展开列表? - burcak
3个回答

12
用老式方法(并且快速地)使用列表推导式来完成它:
columns = ("Length Distance sig1Max sig2Max" 
           "sig3Max sig1Min sig2Min sig3Min").split()
df = pd.DataFrame([[a, b, *c, *d] for a,b,c,d in series.values], columns=columns)
print(df)
   Length  Distance  sig1Max  sig2Max  sig3Max  sig1Min  sig2Min  sig3Min
0       1         0      0.2      0.2      0.2      0.2      0.2      0.2
1       2      1000      0.6      0.7      0.5      0.1      0.3      0.1
2       1         0      0.4      0.4      0.4      0.4      0.4      0.4
3       1         0      0.5      0.5      0.5      0.5      0.5      0.5
4       3     14000      0.8      0.8      0.8      0.6      0.6      0.6
或者,也许你的意思是让它更加动态化。
sigList = ['sig1', 'sig2', 'sig3']

columns = ['Length', 'Distance']
columns.extend(f'{s}{lbl}' for lbl in ('Max', 'Min') for s in sigList )

df = pd.DataFrame([[a,b,*c,*d] for a,b,c,d in series.values], columns=columns)
print(df)
   Length  Distance  sig1Max  sig2Max  sig3Max  sig1Min  sig2Min  sig3Min
0       1         0      0.2      0.2      0.2      0.2      0.2      0.2
1       2      1000      0.6      0.7      0.5      0.1      0.3      0.1
2       1         0      0.4      0.4      0.4      0.4      0.4      0.4
3       1         0      0.5      0.5      0.5      0.5      0.5      0.5
4       3     14000      0.8      0.8      0.8      0.6      0.6      0.6

非常好,特别是动态的部分,因为在我的情况下 sigList 是在运行时解析的。 - burcak
@burcak,我把循环的顺序与第二个顺序颠倒了(抱歉!),但你已经明白了。 - cs95
谢谢。实际上,当在分组数据框的apply方法中调用下面的函数时,它会生成元组系列。有没有办法只返回数据框,这样我就不需要后来从系列创建数据框了? def myfunc(x,signatures): return x.shape[0], x['start'].iloc[-1] - x['start'].iloc[0], x[signatures].agg(max), x[signatures].agg(min) - burcak

2
您可以查看。
newdf=pd.DataFrame(s.tolist())
newdf=pd.concat([newdf[[0,1]],pd.DataFrame(newdf[2].tolist()),pd.DataFrame(newdf[3].tolist())],1)
newdf.columns = [
    "Length", "Distance", "sig1Max", "sig2Max", "sig3Max", "sig1Min", "sig2Min", "sig3Min"
]
newdf
Out[163]: 
   Length  Distance  sig1Max   ...     sig1Min  sig2Min  sig3Min
0       1         0      0.2   ...         0.2      0.2      0.2
1       2      1000      0.6   ...         0.1      0.3      0.1
2       1         0      0.4   ...         0.4      0.4      0.4
3       1         0      0.5   ...         0.5      0.5      0.5
4       3     14000      0.8   ...         0.6      0.6      0.6
[5 rows x 8 columns]

1
你可以将每个元素展开,然后将每个元素转换为一个Series。将每个元素转换为Series会将主Series(下面的示例中的s)转换为DataFrame。然后按照你的意愿设置列名。
例如:
import pandas as pd

# load in your data
s = pd.Series([
    (1, 0, [0.2, 0.2, 0.2], [0.2, 0.2, 0.2]),
    (2, 1000, [0.6, 0.7, 0.5], [0.1, 0.3, 0.1]),
    (1, 0, [0.4, 0.4, 0.4], [0.4, 0.4, 0.4]),
    (1, 0, [0.5, 0.5, 0.5], [0.5, 0.5, 0.5]),
    (3, 14000, [0.8, 0.8, 0.8], [0.6, 0.6, 0.6]),
])

def flatten(x):
    # note this is not very robust, but works for this case
    return [x[0], x[1], *x[2], *x[3]]

df = s.apply(flatten).apply(pd.Series)
df.columns = [
    "Length", "Distance", "sig1Max", "sig2Max", "sig3Max", "sig1Min", "sig2Min", "sig3Min"
]

然后你会得到以下的df
   Length  Distance  sig1Max  sig2Max  sig3Max  sig1Min  sig2Min  sig3Min
0     1.0       0.0      0.2      0.2      0.2      0.2      0.2      0.2
1     2.0    1000.0      0.6      0.7      0.5      0.1      0.3      0.1
2     1.0       0.0      0.4      0.4      0.4      0.4      0.4      0.4
3     1.0       0.0      0.5      0.5      0.5      0.5      0.5      0.5
4     3.0   14000.0      0.8      0.8      0.8      0.6      0.6      0.6

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接