在DataFrame中按行计算非重叠的非零值序列数

5

Let's say I have the following Pandas DataFrame:

id | a1 | a2 | a3 | a4 
1  | 3  | 0  | 10 | 25   
2  | 0  | 0  | 31 | 15  
3  | 20 | 11 | 6  | 5  
4  | 0  | 3  | 1  | 7  

我希望您能为不同的n值计算每行中非重叠运行的n个连续非零值的数量。期望的输出结果如下:
id | a1 | a2 | a3 | a4 | 2s | 3s | 4s
1  | 3  | 0  | 10 | 25 | 1  | 0  | 0
2  | 0  | 0  | 31 | 15 | 1  | 0  | 0
3  | 20 | 11 | 6  | 5  | 2  | 1  | 1
4  | 0  | 3  | 1  | 7  | 1  | 1  | 0

例如,每个在2s列中的值显示该行中长度为2的不相交的运行次数,每个在3s列中的值显示相应的长度为3的运行次数,以此类推。

我想知道是否有任何Pandas或Numpy方法来处理这个问题?


我不明白你所说的“2和3的配对”。例如,在整个数据框中根本没有2(除非你计算id,但我假设它应该是一个索引?) - David Z
抱歉我的英文不好!我的意思是,如果一行中有2个(或3个或4个)连续的非零值,你有没有建议清晰地重新表达我的问题? - renakre
2
哦,我明白了。我认为最好的说法就是你在评论中提到的:“一行中连续出现2(或3或4)个非零值。”我想你可以称之为“一行中连续出现2(或3或4)个非零值的序列。”(它绝对不是一对。一对只能有两个东西。) - David Z
我试着修复了它:)谢谢! - renakre
1
那很有帮助。让我再做一次编辑以进一步澄清它。(我认为任何进一步的更改都比解释容易演示。)完成后,如果您不喜欢,可以将其回滚或再次编辑。 - David Z
2个回答

5
这里有一种使用2D卷积解决任意数量行元素的方法 -
from scipy.signal import convolve2d as conv2

n = 6
v = np.vstack([(conv2(df.values!=0,[[1]*I])==I).sum(1) for I in range(2,n+1)]).T
df_v = pd.DataFrame(v, columns = [[str(i)+'s' for i in range(2,n+1)]])
df_out = pd.concat([df, df_v],1)

基本思路

基本思路是使用滑动窗口来计算每行非零元素的出现次数。假设我们想看看连续出现了多少个三个非零元素,那么我们将使用大小为 3 的滑动窗口并获取滑动求和。所有那些滑动窗口中都有三个元素作为非零元素出现的地方将产生一个总和为 3 的求和值。因此,我们寻找与 3 相匹配的求和,并计算它们。就这样!我们循环遍历所有窗口大小以捕获所有的 2s3s 等。

下面是在数组上计算 3s 的示例运行 -

In [326]: a
Out[326]: 
array([[0, 2, 1, 2, 1, 2],
       [2, 2, 2, 0, 0, 0],
       [2, 2, 1, 1, 1, 1],
       [1, 2, 1, 2, 0, 1]])

In [327]: a!=0
Out[327]: 
array([[False,  True,  True,  True,  True,  True],
       [ True,  True,  True, False, False, False],
       [ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False,  True]], dtype=bool)

In [329]: conv2(a!=0,[[1]*3])
Out[329]: 
array([[0, 1, 2, 3, 3, 3, 2, 1],
       [1, 2, 3, 2, 1, 0, 0, 0],
       [1, 2, 3, 3, 3, 3, 2, 1],
       [1, 2, 3, 3, 2, 2, 1, 1]])

In [330]: conv2(a!=0,[[1]*3])==3
Out[330]: 
array([[False, False, False,  True,  True,  True, False, False],
       [False, False,  True, False, False, False, False, False],
       [False, False,  True,  True,  True,  True, False, False],
       [False, False,  True,  True, False, False, False, False]], dtype=bool)

In [331]: (conv2(a!=0,[[1]*3])==3).sum(1)
Out[331]: array([3, 1, 4, 2])

示例运行 -

In [158]: df_out
Out[158]: 
   a1  a2  a3  a4  a5  a6  2s  3s  4s  5s  6s
0   1   2   1   0   0   2   2   1   0   0   0
1   1   1   2   1   0   1   3   2   1   0   0
2   1   1   0   0   1   1   2   0   0   0   0
3   2   2   1   0   2   2   3   1   0   0   0

请注意,如果第一列是'id',那么我们需要跳过它。因此,在提议的解决方案代码中,我们需要使用df.values[:,1:]而不是df.values

先生,有时间能否请您解释一下[(conv2(df.values!=0,[[1]*I])==I).sum(1) for I in range(2,n+1)]这部分代码的含义? - renakre
先生,如果我只想在数据框的尾部进行检查怎么办? - renakre
@renakre 你所说的“tail”具体指的是什么?是最后一行吗? - Divakar
例如,如果我想获得此列表中尾部连续的1的序列:(1, 2, 35, 6, 3, 2, 1, 1, 1),我希望获得3。如果结尾没有1,则返回0。明白了吗? - renakre
@renakre 看起来这是一个不同的问题,建议在Stackoverflow上发布一个新的问题。 - Divakar

1

一个管理非重叠特性的解决方案。

def count(row,mins):
    runs=(row!=0).astype(uint8).tobytes().decode().split(chr(0))
    lengths=[len(run) for run in runs]
    return np.floor_divide.outer(lengths,mins).sum(0) 

它使用字符串快速操作来查找所有的连续字符片段,然后使用 // 来确定每个给定长度的非重叠片段可以构建多少个。
使用 df:
    a1  a2  a3  a4
id                
1    3   0  10  25
2    0   0  31  15
3   20  11   6   5
4    0   3   1   7

"

np.apply_along_axis(count,1,df,[2,3,4])

返回"
array([[1, 0, 0],
       [1, 0, 0],
       [2, 1, 1],
       [1, 1, 0]], dtype=int32)

这是对df的预期结果。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接