基于统计/模式的问题算法

3
我有一组设备,每个设备都有一个时间列表 T,表示设备开启的时间,例如:
设备 A:[周一 16:03,周一 15:59,周三 16:05,... n]
我正在检测使用模式。例如,如果第二天一个人在平均时间 T+/-5 分钟内打开开关,则该时间和平均时间 T 值之间可能存在强烈的联系。我们可以说这是一种模式,并且可以在以后的日子里逐渐建立起来。如果有一天缺少值(开关没有打开),即出现遗漏,则置信度可能会降低。一个问题是需要考虑缺少数据的天数。如果置信度低于阈值,则可以说模式不存在。
我创建了一个简单的工作版本(未考虑遗漏),但我更感兴趣的是更伟大的思想家认为评估和检测每天事件是否发生的最佳方法。我认为这是最好的地方,因为我对优雅而美丽的处理方式感兴趣。是否有更好的统计模型可用于解决此类模式?谢谢。
2个回答

4

有一个相当明显的尝试方法是使用fft生成时间数据的功率谱,寻找显著的峰值。如果你有一个周期为1天的信号,那么你就知道每天都会发生一些事情; 如果你还有一个周期为7天的信号,那么你就知道有一个每周的成分 - 也许它们在周末的行为不同。

这是一个经典的、定量的方法。你也可以尝试玩一下更现代、非结构化的方法 - 也许训练一个神经网络以某种方式识别模式?没有理由不能将这些方法结合起来 - 功率谱可能提供参数(周期),这些参数用于以更结构化的形式呈现数据到网络中(例如通过取时间模除适当的周期)。

最后,我也会进行文献搜索,看看其他人做了什么。通过谷歌玩耍,似乎"时间模式检测"会是一个合适的阶段。

ps另外,我会将变化的检测与模式的检测分开。首先,我会专注于检测模式。只有当这个部分运作良好时,我才会考虑扩展到“每天提前5分钟”等内容,部分原因是从简单开始更好,但更重要的是因为我并不认为这些修正很重要。大多数人并不会每天都坚持做某件事提前5分钟,否则他们晚上会很忙......我们自然是周期性的,所以我会先寻找周期,只有在有证据表明它们很重要时,才会考虑线性变化。

pps统计学只在评估特定假设的证据时才会涉及。它更多地是关于模式匹配/模式检测,如果添加这些标签,你可能会得到更多回复。


2
根据您的定义,如果事件e每24小时内发生一次,并且在此期间内的10分钟内发生,且概率高于给定的阈值,则存在一种模式。这类似于日出问题。在您的情况下,布尔型每日事件不是日出,而是事件e在预期间隔内的发生。
明天事件e发生的概率可以根据继承法则计算。根据您的定义,如果该值高于给定的阈值,则存在一种模式。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接