我正在尝试从具有日期的GPS高程偏移散点图中过滤掉一些异常值。
我试图使用df.rolling计算每个窗口的中位数和标准差,然后删除大于3个标准差的点。
但是,我无法想出一种方法来循环遍历列并比较滚动计算的中位数值。
这是我到目前为止的代码:
import pandas as pd
import numpy as np
def median_filter(df, window):
cnt = 0
median = df['b'].rolling(window).median()
std = df['b'].rolling(window).std()
for row in df.b:
#compare each value to its median
df = pd.DataFrame(np.random.randint(0,100,size=(100,2)), columns = ['a', 'b'])
median_filter(df, 10)
我该如何遍历每个点并进行比较,然后将其删除?