在值发生变化时给行打标签 pandas

3
我需要解决以下问题。我有一个时间戳和一个值。这个值可以为正、负或保持不变。只要它从一行变成正数或保持不变,我就想在新列中添加一个标签。如果该值继续增加,则应将相同的标签添加到该行。一旦该值变为负数,应将零输入为标签。有人能帮帮我吗?
输入数据
df_raw = pd.DataFrame(
    {
        "timestamp": [
            "2017-06-16 05:19:18.993",
            "2017-06-16 05:19:28.993",
            "2017-06-16 05:19:38.993",
            "2017-06-16 05:19:48.993",
            "2017-06-16 05:19:58.993",
            "2017-06-16 05:25:08.993",
            "2017-06-16 05:25:18.993",
            "2017-06-16 07:44:28.993",
            "2017-06-16 07:45:38.993",
        ],
        "signalvalue": [0.0, 12.0, 22.0, 13.0, 0.0, 30.0, 0.0, 3.0, 6.0],
    }
)

    timestamp                signalvalue
0   2017-06-16 05:19:18.993  0.0
1   2017-06-16 05:19:28.993  12.0
2   2017-06-16 05:19:38.993  22.0
3   2017-06-16 05:19:48.993  13.0
4   2017-06-16 05:19:58.993  0.0
5   2017-06-16 05:25:08.993  30.0
6   2017-06-16 05:25:18.993  0.0
7   2017-06-16 07:44:28.993  3.0
8   2017-06-16 07:45:38.993  6.0

期望的输出

    timestamp                signalvalue    label
0   2017-06-16 05:19:18.993  0.0            0
1   2017-06-16 05:19:28.993  12.0           1
2   2017-06-16 05:19:38.993  22.0           1
3   2017-06-16 05:19:48.993  13.0           0
4   2017-06-16 05:19:58.993  0.0            0
5   2017-06-16 05:25:08.993  30.0           2
6   2017-06-16 05:25:18.993  0.0            0
7   2017-06-16 07:44:28.993  3.0            3
8   2017-06-16 07:45:38.993  6.0            3

请澄清一下:每次看到新的出现,label值应该递增吗?你尝试过什么?你的尝试有什么问题吗?我们要求问题包括一个[mcve],展示你迄今为止尝试过的代码。 - G. Anderson
3个回答

5

如果连续值之间的差大于零,则可以基于这些差计算一个掩码。然后只保留每个区间的第一项来计算累加和cumsum

m1= df_raw['signalvalue'].diff().gt(0)

df_raw['label'] = (m1&m1.ne(m1.shift())).cumsum()*m1.astype(int)

输出:

                 timestamp  signalvalue  label
0  2017-06-16 05:19:18.993          0.0      0
1  2017-06-16 05:19:28.993         12.0      1
2  2017-06-16 05:19:38.993         22.0      1
3  2017-06-16 05:19:48.993         13.0      0
4  2017-06-16 05:19:58.993          0.0      0
5  2017-06-16 05:25:08.993         30.0      2
6  2017-06-16 05:25:18.993          0.0      0
7  2017-06-16 07:44:28.993          3.0      3
8  2017-06-16 07:45:38.993          6.0      3

到目前为止,这个程序运行得很好!但是我发现了一个错误。如果两个值之间的差保持不变,标签就不应该为零。因此,只有当差值为负数时,标签才应该为0。否则,它应该像描述的那样递增。我该如何将这个功能添加到你的解决方案中?谢谢! - Horseman
1
我猜想将 gt(0)(大于)替换为 ge(0)(大于或等于)。 - mozway

1
您可以使用以下函数来实现:
def increment_method_1(df,name):
    Results=[]
    last_result=0
    prev_val=0
    for val in df[name].values:
        if val==0 or (val>0 and prev_val>=val):
            Results.append(0)
        elif prev_val<val and prev_val!=0:
            Results.append(last_result)
        elif prev_val<val and prev_val==0:
            last_result+=1
            Results.append(last_result)
        else:
            print(prev_val,val,last_result)
            print("Unexpected condition")
        prev_val=val
    return Results

enter image description here


1
我假设您期望的输出如下代码片段所示。
import pandas as pd
import numpy as np

df_raw = pd.DataFrame(
    {
        "timestamp": [
            "2017-06-16 05:19:18.993",
            "2017-06-16 05:19:28.993",
            "2017-06-16 05:19:38.993",
            "2017-06-16 05:19:48.993",
            "2017-06-16 05:19:58.993",
            "2017-06-16 05:25:08.993",
            "2017-06-16 05:25:18.993",
            "2017-06-16 07:44:28.993",
            "2017-06-16 07:45:38.993",
        ],
        "signalvalue": [0.0, 12.0, 22.0, 13.0, 0.0, 30.0, 0.0, 3.0, 6.0],
    }
)

modified = np.zeros((len(df_raw),)).astype(int)
positive = 0 

for i in range(1, len(df_raw)):
    if df_raw["signalvalue"][i] > df_raw["signalvalue"][i - 1]:
        if modified[i - 1] == 0:
            positive += 1
            modified[i] = positive
        else:
            modified[i] = positive

    
df_raw['label'] = modified

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接