如何在pandas中将多个参数传递给map函数

4

I have a following dataFrame

mn = pd.DataFrame({'fld1': [2.23, 4.45, 7.87, 9.02, 8.85, 3.32, 5.55],'fld2': [125000, 350000,700000, 800000, 200000, 600000, 500000],'lType': ['typ1','typ2','typ3','typ1','typ3','typ1','typ2'], 'counter': [100,200,300,400,500,600,700]})

映射函数

def getTag(rangeAttribute):
    sliceDef = {'tag1': [1, 4], 'tag2': [4, 6], 'tag3': [6, 9],
                'tag4': [9, 99]}
    for sl in sliceDef.keys():
        bounds = sliceDef[sl]
        if ((float(rangeAttribute) >= float(bounds[0]))
            and (float(rangeAttribute) <= float(bounds[1]))):
            return sl


def getTag1(rangeAttribute):
    sliceDef = {'100-150': [100000, 150000],
                '150-650': [150000, 650000],
                '650-5M': [650000, 5000000]}
    for sl in sliceDef.keys():
        bounds = sliceDef[sl]
        if ((float(rangeAttribute) >= float(bounds[0]))
            and (float(rangeAttribute) <= float(bounds[1]))):
            return sl

我希望根据fld1和fld2的标签计算总和。 目前,我必须编写不同的函数,并使用硬编码的值来处理不同类型的字段。MAP函数只接受一个参数。除了MAP之外,还有哪些函数可以将sliceDef作为输入参数。

mn.groupby([mn['fld1'].map(getTag),mn['fld2'].map(getTag1),'lType'] ).sum()

我认为map函数不是对系列中的每个元素进行操作,如果您想要在逐行基础上传递多个参数并执行某些操作,则可以使用apply并设置axis=1,例如mn.apply(lambda row: getTag(row), axis=1)。在getTag中,您可以这样选择列:row['fld1']row['fld2']。这应该可以实现您想要的功能。 - EdChum
你可能也会对查看 pd.cut 感兴趣,例如 pd.cut(mn.fld1, [1, 4, 6, 9, 99], right=False)。虽然它的形式不完全与你所寻找的相同,但在我的经验中它非常方便。 - DSM
1个回答

5

不必使用map函数,你可以使用pd.cut(感谢DSM和Jeff提出这个方法):

import numpy as np
import pandas as pd

mn = pd.DataFrame(
    {'fld1': [2.23, 4.45, 7.87, 9.02, 8.85, 3.32, 5.55],
     'fld2': [125000, 350000, 700000, 800000, 200000, 600000, 500000],
     'lType': ['typ1', 'typ2', 'typ3', 'typ1', 'typ3', 'typ1', 'typ2'],
     'counter': [100, 200, 300, 400, 500, 600, 700]})

result = mn.groupby(
    [pd.cut(mn['fld1'], [1,4,6,9,99], labels=['tag1', 'tag2', 'tag3', 'tag4']),
     pd.cut(mn['fld2'], [100000, 150000, 650000, 5000000],
            labels=['100-150', '150-650', '650-5M']),
     'lType']).sum()

print(result)

产量
                    counter   fld1    fld2
             lType                        
tag1 100-150 typ1       100   2.23  125000
     150-650 typ1       600   3.32  600000
tag2 150-650 typ2       900  10.00  850000
tag3 150-650 typ3       500   8.85  200000
     650-5M  typ3       300   7.87  700000
tag4 650-5M  typ1       400   9.02  800000

这比为系列中的每个值调用 getTaggetTag1 更快。相反,pd.cut 使用 np.searchsorted,它使用一次调用返回所有索引(而且,searchsorted 使用在 C 中编写的 O(log n) 二分查找,而不是在 Python 中编写的 O(n) 循环)。


一个微妙的点:sliceDef.keys() 返回的键没有保证按任何特定顺序。它甚至可能会从一次运行到另一次运行改变(至少在 Python3 中)。您的标准使用完全封闭间隔:

    if ((float(rangeAttribute) >= float(bounds[0]))
        and (float(rangeAttribute) <= float(bounds[1]))):

如果rangeAttribute 恰好落在 bounds 中的某个值上,则首先测试哪个键可能很重要,因此您当前的代码是不确定性的。

pd.cut 使用半开区间,因此每个值将仅属于一个类别,从而避免了该问题。


回答这个一般性问题的方法: 是的,有一种方法可以传递额外的参数——使用 apply 而不是 map(感谢 Andy Hayden 指出):

import numpy as np
import pandas as pd

def getTag(rangeAttribute, sliceDef):
    for sl in sliceDef.keys():
        bounds = sliceDef[sl]
        if ((float(rangeAttribute) >= float(bounds[0]))
            and (float(rangeAttribute) <= float(bounds[1]))):
            return sl

sliceDef = {'tag1': [1, 4], 'tag2': [4, 6], 'tag3': [6, 9],
            'tag4': [9, 99]}
sliceDef1 = {'100-150': [100000, 150000],
            '150-650': [150000, 650000],
            '650-5M': [650000, 5000000]}

mn = pd.DataFrame(
    {'fld1': [2.23, 4.45, 7.87, 9.02, 8.85, 3.32, 5.55],
     'fld2': [125000, 350000, 700000, 800000, 200000, 600000, 500000],
     'lType': ['typ1', 'typ2', 'typ3', 'typ1', 'typ3', 'typ1', 'typ2'],
     'counter': [100, 200, 300, 400, 500, 600, 700]})

result = mn.groupby([mn['fld1'].apply(getTag, args=(sliceDef, ))
                     ,mn['fld2'].apply(getTag, args=(sliceDef1, )),
                     'lType'] ).sum()
print(result)

然而,我不推荐在这个特定的问题中使用 apply ,因为 pd.cut 更快,更容易使用,并避免了字典键的非确定性顺序问题。但是,知道 apply 可以接受其他位置参数可能会在将来对您有帮助。



回顾这个问题,我认为你可以使用.apply(getTag, sliceDef)而不是使用partial。 - Andy Hayden
@AndyHayden:哇,我不知道你可以这样做!谢谢。 - unutbu
我认为这基本上就是 pd.cut 所做的事情(然后你可以在返回的区间上进行 groupby)。 - Jeff
@Jeff 和 @DSM:谢谢。我已经改用 pd.cut 而不是 np.searchsorted 来回答了。 - unutbu

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接