检测数据中异常值的最佳统计方法

6
我们的Web应用程序收集了大量有关用户操作、网络业务、数据库负载等方面的数据。所有数据都存储在仓库中,我们对这些数据有相当多的有趣观点。如果发生异常情况,很可能会在数据中显示出来。然而,要手动检测是否有异常情况,就必须不断地查看这些数据,并寻找异常情况。我的问题是:检测动态数据中的变化(可以视为“异常”)的最佳方法是什么?贝叶斯过滤器(我在阅读有关垃圾邮件检测时看到过这些内容)是否是正确的选择?任何指针都将是很好的帮助!编辑:为了澄清,数据例如显示每日数据库负载曲线。这条曲线通常与昨天的曲线相似,在一段时间内这条曲线可能会缓慢变化。如果从一天到另一天的曲线变化在某些范围内,那么发出警告会很好。
4个回答

5

请看控制图,它们提供了一种通过视觉跟踪数据变化并指定何时数据“失控”或“异常”的方式。在制造业中,它们被广泛用于确保质量控制。


4

如果不了解您拥有的特定数据,那么很难回答这个问题。关于现有方法的概述,请参见Chandola、Banerjee和Kumar的《异常检测:调查》(Anomaly Detection: A Survey)。


1

这取决于数据的具体情况。先学习统计学基础知识,这通常不是一个简单或容易的问题。


3
太好了,真的很有帮助;^) - Toad
甚至是一个明确定义的问题。你所说的“异常”究竟是什么意思? - Carlos Rendon

1

贝叶斯分类可能会帮助您找到数据中的一些异常值,具体取决于数据类型以及您训练贝叶斯过滤器的好坏程度。

甚至有一个作为Web服务提供的贝叶斯分类器@ uClassify.com


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接