Pandas:查找包含列表的一列中的最大值

11

我有一个像这样的数据框:

fly_frame:
          day    plcae
0  [1,2,3,4,5]       A
1    [1,2,3,4]       B
2        [1,2]       C
3     [1,2,3,4]      D
如果我想在day列的每个条目中找到最大值。
例如:
fly_frame:
          day    plcae
0           5       A
1           4       B
2           2       C
3           4       D

我该怎么办?
谢谢你的帮助。


2
你到目前为止尝试了什么? - Tobias Wilfert
4个回答

11
df.day.apply(max)
#0    5
#1    4
#2    2
#3    4

5

使用 apply 方法和 max 函数:

#if strings

#import ast

#print (type(df.loc[0, 'day']))
#<class 'str'>

#df['day'] = df['day'].apply(ast.literal_eval)

print (type(df.loc[0, 'day']))
<class 'list'>

df['day'] = df['day'].apply(max)

或者列表推导式:

df['day'] = [max(x) for x in df['day']]

print (df)
   day plcae
0    5     A
1    4     B
2    2     C
3    4     D

0
我建议先将您的数据框转换为更好的格式。
>>> df
               day plcae
0  [1, 2, 3, 4, 5]     A
1     [1, 2, 3, 4]     B
2           [1, 2]     C
3     [1, 2, 3, 4]     D
>>> 
>>> df = pd.concat([df.pop('day').apply(pd.Series), df], axis=1)
>>> df
     0    1    2    3    4 plcae
0  1.0  2.0  3.0  4.0  5.0     A
1  1.0  2.0  3.0  4.0  NaN     B
2  1.0  2.0  NaN  NaN  NaN     C
3  1.0  2.0  3.0  4.0  NaN     D

现在一切都变得更加容易,例如计算沿列的数值最大值。

>>> df.max(axis=1)
0    5.0
1    4.0
2    2.0
3    4.0
dtype: float64

编辑:重命名索引也可能对您有用。

>>> df.max(axis=1).rename(df['plcae'])
A    5.0
B    4.0
C    2.0
D    4.0
dtype: float64

0

尝试使用pd.concat()df.apply()的组合:

import numpy as np
import pandas as pd


fly_frame = pd.DataFrame({'day':[[1,2,3,4,5],[1,2,3,4],[1,2],[1,2,3,4]],'place':['A','B','C','D']})

df = pd.concat([fly_frame['day'].apply(max),fly_frame.drop('day',axis=1)],axis=1)

print(df)



   day place
0    5     A
1    4     B
2    2     C
3    4     D

编辑 您还可以使用df.join()来进行操作:

fly_frame.drop('day',axis=1).join(fly_frame['day'].apply(np.max,axis=0))


place  day
0     A    5
1     B    4
2     C    2
3     D    4

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接