Pandas wide_to_long,id变量需要唯一标识每一行。

5
假设我有一个像这样的数据框:
ID,Time1,Value1,Time2,Value2,Time3,Value3
1,2,1.1,3,1.2,4,1.3
1,5,2.1,6,2.2,7,2.3

预期的数据框如下所示

ID,Time,Value
1,2,1.1
1,3,1.2
1,4,1.3
1,5,2.1
1,6,2.2
1,7,2.3

如果行具有唯一ID,则pd.wide_to_long在这种情况下可以完美地工作。
df = pd.wide_to_long(df, ['Time',Value],'ID','value', sep='', suffix='.+')\
    .reset_index()\
    .sort_values(['ID', 'Time'])\
    .drop('value', axis=1)\
    .dropna(how='any')

但是在这种情况下,如果行的ID不唯一,该如何解决?

1个回答

7

技巧是使用reset_index来处理唯一值的列:

df = (pd.wide_to_long(df.reset_index(), ['Time','Value'],i='index',j='value')
        .reset_index(drop=True)
        .sort_values(['ID', 'Time'])
        .dropna(how='any')
        )
print (df)
   ID  Time  Value
0   1     2    1.1
2   1     3    1.2
4   1     4    1.3
1   1     5    2.1
3   1     6    2.2
5   1     7    2.3

详细信息:

print (pd.wide_to_long(df.reset_index(), ['Time','Value'],i='index',j='value'))
             ID  Time  Value
index value                 
0     1       1     2    1.1
1     1       1     5    2.1
0     2       1     3    1.2
1     2       1     6    2.2
0     3       1     4    1.3
1     3       1     7    2.3

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接