PostgreSQL 中的时间窗口

4

我刚接触PostgreSQL(具体来说,我使用Timescale数据库),关于时间窗口我有一个问题。

数据:

date      |customerid|names   
2014-01-01|1         |Andrew 
2014-01-02|2         |Pete   
2014-01-03|2         |Andrew 
2014-01-04|2         |Steve  
2014-01-05|2         |Stef   
2014-01-06|3         |Stef  
2014-01-07|1         |Jason 
2014-01-08|1         |Jason 

问题是:回溯x天(从每一行的角度看),有多少个不同的名称共享相同的ID?
对于x = 2天,结果应该如下:
date      |customerid|names  |count 
2014-01-01|1         |Andrew |1 
2014-01-02|2         |Pete   |1 
2014-01-03|2         |Andrew |2 
2014-01-04|2         |Steve  |3 
2014-01-05|2         |Stef   |3 
2014-01-06|3         |Stef   |1
2014-01-07|1         |Jason  |1
2014-01-08|1         |Jason  |1  

在不使用循环遍历每一行的情况下,PostgreSQL是否可以实现这个功能?

额外信息:实际数据的时间间隔不是等距的。

非常感谢!

1个回答

6

如果您能使用窗口函数,那将非常好:

select t.*,
       count(distinct name) over (partition by id
                                  order by date
                                  range between interval 'x day' preceding and current row
                                 ) as cnt_x
from t;

很遗憾,这是不可能的。您可以使用侧向连接(lateral join):

select t.*, tt.cnt_x
from t left join lateral
     (select count(distinct t2.name) as cnt_x
      from t t2
      where t2.id = t.id and
             t2.date >= t.date - interval 'x day' and t2.date <= t.date
     ) tt
     on true;

为了提高性能,您需要在(id, date, name)上建立索引。


是的,COUNT() 在窗口函数中实现了,但不包括 COUNT(DISTINCT <column>)。Lateral查询是解决方案。 - The Impaler
非常感谢!在过去的几周中,我使用Spark计算了像这样的查询,我很好奇在PostgreSQL中是否也同样可能。 - Dominik
据我所见,在大数据(+200k行)上,这种方法不会表现良好。在您看来,哪种数据库解决方案适合这些问题? - Dominik
@Dominik...根据您拥有的id数量,索引应该会很有帮助。 - Gordon Linoff
是的,我明白。但是我有多个查询(它们都很相似但仍然不同)。最终我将得到一堆索引,我认为这会引起问题。表中的每一行都是一笔购买交易。 - Dominik
我无法同时解决两个问题:
  1. 我必须能够计算与历史交易非常相似的查询,例如,在具有200k行的历史数据记录上进行50个这样的查询。
  2. 我必须能够在运行时快速计算50个这样的查询。
我可能会这样做:我使用Spark在历史记录上计算这些查询。我使用Timscale DB在传入交易上计算这种类型的查询。拥有一种可以同时完成这两项任务的技术将是很棒的。
- Dominik

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接