简化时间序列数据

4

我有一些时间序列数据,希望能够简化它们(减少数据点数量但保持图像形状不变)。例如,如果我有这个数据集:

Time: 1, Value: 5
Time: 6, Value: 5
Time: 11, Value: 5.1
Time: 12, Value: 5
Time: 20, Value: 5.2
Time: 22, Value: 6
Time: 23, Value: 10

简化版本容差为0.5,大致如下:
Time: 1, Value: 5
Time: 20, Value: 5.2
Time: 22, Value: 6
Time: 23, Value: 10

我知道Douglas-Peucker算法可以用于GIS数据,但是我不确定如何将其应用到时间序列数据中,因为坐标轴具有不同的单位。如果我能在数据库中完成所有这些操作,那就太棒了。


这两个形状其实并不一样,对吧?比如说,如果它是一个方波 1,0 2,0 3,0 4,0 5,0 6,10,你把它改成 1,0 6,10,那么你就会得到一个斜率;你需要保持两个端点在一个恒定的斜率上。 - Phrogz
@Phrogz 这是正确的,但如果你有1,0 5,0 6,10,它将是相同的形状。理想情况下会有一点容差,这就是为什么我在上面的例子中过滤掉了3,5.1。 - Mike Neumegen
2个回答

1
拉默-道格拉斯-普克算法适用于此处——单位应该不是问题。

1

我不知道是否有内置函数可以实现这个。这个查询可能可以完成工作:

WITH x AS (
    SELECT t, val
          ,@(lead(val) OVER w - val) AS delta1
          ,@(lag(val)  OVER w - val) AS delta2
    FROM   tbl
    WINDOW w AS (ORDER BY t)
    ORDER  BY t
    )
SELECT t, val
FROM   x
WHERE  delta1 > 0.2
   OR  delta2 > 0.2
   OR  delta1 IS NULL
   OR  delta2 IS NULL;

我在CTE中使用窗口函数lead()lag()以及绝对值运算符@来计算增量(应该是最快的)。

只有那些增量中至少有一个大于0.2(与您的示例匹配的任意阈值)的行被保留。

第一行和最后一行是特殊情况,其中delta1delta2NULL(没有前导/滞后行)。我们希望无论如何都包括这些行,因此我在最终的SELECT中添加了NULL检查。

生成您请求的结果。


另一种专注于方向变化程度的变体:

WITH x AS (
    SELECT t, val
          ,@(lead(val) OVER w + lag(val) OVER w - 2*val) AS deviate
    FROM   tbl
    WINDOW w AS (ORDER BY t)
    ORDER  BY t
    )
SELECT t, val, deviate
FROM   x
WHERE  deviate > 0.2
   OR  deviate IS NULL;

这样可以更准确地保留形状。此示例保留了行时间:12,值:5,避免了您在评论中描述的效果。(您在问题中的示例没有指向这个方向。)


这非常接近我所需要的。唯一的问题是,如果我有一个0.5的公差,它会返回1,5 20,6 23,10,这将改变图形的形状...为了保持形状,它应该返回1,5 20,5.2 22,6, 23,10。从视觉上看,这两种方法之间的区别在于第一种方法会朝第二个点稳定上升,而第二种方法中,线条会相对平坦,然后突然跳到更接近原始数据的第三个点。 - Mike Neumegen
@Mike:你的例子似乎专注于绝对值。我添加了一个专注于方向改变的变体。 - Erwin Brandstetter

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接