使用operator.itemgetter函数的apply和applymap方法行为不一致

3

这可能不是在实际情况下安排数据的最佳方法,但它提供了一个很好的例子:

In [16]:
import operator
In [17]:
DF=pd.DataFrame({'Val1':[[2013, 37722.322],[1998, 32323.232]],
                 'Val2':[[2013, 37722.322],[1998, 32323.232]]})
In [18]:
print DF
                Val1               Val2
0  [2013, 37722.322]  [2013, 37722.322]
1  [1998, 32323.232]  [1998, 32323.232]

[2 rows x 2 columns]

apply方法返回错误结果

In [19]:
print DF.apply(operator.itemgetter(-1), axis=1)
   Val1       Val2
0  2013  37722.322
1  1998  32323.232

[2 rows x 2 columns]

但是,applymap 可以得到正确的结果!
In [20]:
print DF.applymap(operator.itemgetter(-1))
        Val1       Val2
0  37722.322  37722.322
1  32323.232  32323.232

[2 rows x 2 columns]

为什么会发生这种情况?

2
apply被传递了一个整行数据,其中包含了两个列表元素;最后一个列表将被返回并转换为序列。通常来说,嵌套的列表元素并不是一个好主意。 - Jeff
我同意,在现实生活中这不是一种好的数据存储方式。最有趣的是,它的第一个元素被分配给 Val1。现在我明白了,谢谢! - CT Zhu
2个回答

4

如果您使用以下工具,就更容易了解正在发生的事情:

df = pd.DataFrame({'Val1':[[1, 2],[3, 4]],
                 'Val2':[[5, 6],[7, 8]]})

     Val1    Val2
0  [1, 2]  [5, 6]
1  [3, 4]  [7, 8]

df.apply(operator.itemgetter(-1), axis=1) 在每一行上调用 operator.itemgetter(-1) 方法。

例如,在第一行上,operator.itemgetter(-1) 返回最后一个元素,即 [5, 6]。 由于这个值是可迭代的,所以它的值被赋给了两列 Val1Val2。因此结果是:

In [149]: df.apply(operator.itemgetter(-1), axis=1)
Out[149]: 
   Val1  Val2
0     5     6
1     7     8

相比之下,applymap 操作的是 DataFrame 中每个单元格,因此 operator.itemgetter(-1) 会从每个单元格中返回最后一个项目。
In [150]: df.applymap(operator.itemgetter(-1))
Out[150]: 
   Val1  Val2
0     2     6
1     4     8

1
只是想补充一下 @unutbu 和 @jeff 说的,如果一开始有三列:
In [26]:

print DF
                Val1               Val2               Val3
0  [2013, 37722.322]  [2014, 37722.322]  [2015, 37722.322]
1  [1997, 32323.232]  [1998, 32323.232]  [1999, 32323.232]

[2 rows x 3 columns]
In [27]:

print DF.apply(operator.itemgetter(-1), axis=1)
0    [2015, 37722.322]
1    [1999, 32323.232]
dtype: object

由此得出的列表(长度为2)无法被强制转换为长度为3的系列,结果现在是一个列表序列。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接