减少pandas DataFrame中的列数

4

我正在尝试在seaborn中创建一个小提琴图。输入是一个pandas DataFrame,为了沿x轴分离数据,我需要在单个列上进行区分。我目前有一个DataFrame,其中包含几个传感器的浮点值:

>>>df.columns
Index('SensorA', 'SensorB', 'SensorC', 'SensorD', 'group_id')

也就是说,每个Sensor[A-Z]列都包含一堆数字:

>>>df['SensorA'].head()
0    0.072706
1    0.072698
2    0.072701
3    0.072303
4    0.071951
Name: SensorA, dtype: float64

针对这个问题,我只关心两个群体:

>>>df['group_id'].unique()
'1', '2'

我希望每个Sensor在x轴上都是一个独立的小提琴。

我认为这意味着我需要将其转换为以下形式之一:

>>>df.columns
Index('Value', 'Sensor', 'group_id')

新的DataFrame中,当 Sensor 列包含文本 "SensorA"、"SensorB" 等时,Value 列包含原始在每个 Sensor[A-Z] 列中的值,并且组信息保留。

然后,可以使用以下命令创建小提琴图:

ax = sns.violinplot(x="Sensor", y="Value", hue="group_id", data=df)

我在考虑我需要进行反向旋转。有没有简单的方法可以做到这一点?


你能提供一些来自你的数据框的数据吗? - Anton Protopopov
我刚刚添加了更多的示例数据。 - mgig
2个回答

4
使用panda的函数
import pandas as pd
import numpy as np
df = pd.DataFrame({'SensorA':[1,3,4,5,6], 'SensorB':[5,2,3,6,7], 'SensorC':[7,4,8,1,10], 'group_id':[1,2,1,1,2]})
df = pd.melt(df, id_vars = 'group_id', var_name = 'Sensor')
print df

提供

    group_id   Sensor  value
0          1  SensorA      1
1          2  SensorA      3
2          1  SensorA      4
3          1  SensorA      5
4          2  SensorA      6
5          1  SensorB      5
6          2  SensorB      2
7          1  SensorB      3
8          1  SensorB      6
9          2  SensorB      7
10         1  SensorC      7
11         2  SensorC      4
12         1  SensorC      8
13         1  SensorC      1
14         2  SensorC     10

看起来这创建了一个分层索引。那么我如何将其转换为“传感器”列,并仍然保留'user_id'呢? - mgig
用户ID是什么?您能在问题中提供一个最小的工作示例,展示df和期望的输出吗? - Fabian Rost
3
顺便提一下,我建议你使用panda.melt。在我看来,它更优秀,因为你可以在重塑操作中指定列的命名,这样就不太可能遇到微妙的错误了。 - mwaskom
1
谢谢@mwaskom,我之前不知道melt,但看起来它确实是解决问题的正确方式。我已经相应地更新了答案。 - Fabian Rost

1
也许这不是最好的方法,但它可以工作(AFAIU):


import pandas as pd
import numpy as np
df = pd.DataFrame({'SensorA':[1,3,4,5,6], 'SensorB':[5,2,3,6,7], 'SensorC':[7,4,8,1,10], 'group_id':[1,2,1,1,2]})
groupedID = df.groupby('group_id')
df1 = pd.DataFrame()
for groupNum in groupedID.groups.keys():
  dfSensors = groupedID.get_group(groupNum).filter(regex='Sen').stack()
  _, sensorNames = zip(*dfSensors.index)
  df2 = pd.DataFrame({'Sensor': sensorNames, 'Value':dfSensors.values, 'group_id':groupNum})
  df1 = pd.concat([df1, df2])
print(df1)

输出:

    Sensor  Value  group_id
0  SensorA      1         1
1  SensorB      5         1
2  SensorC      7         1
3  SensorA      4         1
4  SensorB      3         1
5  SensorC      8         1
6  SensorA      5         1
7  SensorB      6         1
8  SensorC      1         1
0  SensorA      3         2
1  SensorB      2         2
2  SensorC      4         2
3  SensorA      6         2
4  SensorB      7         2
5  SensorC     10         2

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接