检测数据中异常值的最佳统计方法

Question

检测数据中异常值的最佳统计方法

6

我们的Web应用程序收集了大量有关用户操作、网络业务、数据库负载等方面的数据。所有数据都存储在仓库中，我们对这些数据有相当多的有趣观点。如果发生异常情况，很可能会在数据中显示出来。然而，要手动检测是否有异常情况，就必须不断地查看这些数据，并寻找异常情况。我的问题是：检测动态数据中的变化（可以视为“异常”）的最佳方法是什么？贝叶斯过滤器（我在阅读有关垃圾邮件检测时看到过这些内容）是否是正确的选择？任何指针都将是很好的帮助！编辑：为了澄清，数据例如显示每日数据库负载曲线。这条曲线通常与昨天的曲线相似，在一段时间内这条曲线可能会缓慢变化。如果从一天到另一天的曲线变化在某些范围内，那么发出警告会很好。

- Toad

4个回答

4

如果不了解您拥有的特定数据，那么很难回答这个问题。关于现有方法的概述，请参见Chandola、Banerjee和Kumar的《异常检测：调查》（Anomaly Detection: A Survey）。

- Jouni K. Seppänen

1

这取决于数据的具体情况。先学习统计学基础知识，这通常不是一个简单或容易的问题。

- aehlke

3

太好了，真的很有帮助；^) - Toad

甚至是一个明确定义的问题。你所说的“异常”究竟是什么意思？ - Carlos Rendon

1

贝叶斯分类可能会帮助您找到数据中的一些异常值，具体取决于数据类型以及您训练贝叶斯过滤器的好坏程度。

甚至有一个作为Web服务提供的贝叶斯分类器@ uClassify.com。

- Alix Axel

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Carlos Rendon · Accepted Answer

请看控制图，它们提供了一种通过视觉跟踪数据变化并指定何时数据“失控”或“异常”的方式。在制造业中，它们被广泛用于确保质量控制。