a = [['John', 'Mary', 'John'], [10,22,50]]
df1 = pd.DataFrame(a, columns=['Name', 'Count'])
给定一个像这样的数据框,我想要比较所有相似的“Name”字符串值与“Count”值,以确定最高值。我不确定如何在Python的数据框中做到这一点。例如,在上面的情况下,答案将是: Mary 22 和 John 50。已经删除了较低的John 10(我只想看到基于“Name”相同值的“Count”的最高值)。在SQL中,它会像一个选择案例查询一样(在其中我选择Name == Name&Count> Count的情况来递归地确定最高数字)。或者为每个名称使用For循环,但据我所知,由于DataFrame对象的性质,循环在DataFrame中是一个不好的想法。有没有办法在Python的数据框中做到这一点?我可以创建一个新的数据框,其中包含每个变量(只有John一个,然后获取最高值(df.value()[:1]或类似的值)。但由于我有许多数百个唯一的条目,因此这似乎是一个可怕的解决方案。 :D
df.groupby('Name').Count.max()
? - miradulo