15得票8回答
快速找到远离群体的动物的算法

我正在开发一款仿真程序。有一群动物(角马),我需要能够找到其中一个远离群体的动物。 在下面的图片中,绿点是远离群体的点。我希望能够快速地找到这些点。 当然,有一个简单的算法来解决这个问题。计算每个点邻域中的点数,如果邻域为空(其中没有点),则我们知道这个点远离了群体。 问题在于,这个...

13得票2回答
从Matplotlib中找到异常点:箱线图

我正在使用matplotlib的boxplot函数绘制一个非正态分布,并且希望通过boxplot函数找到离群值。 除了这个图,我还想知道我的代码中显示为离群点的数值。是否有任何方法可以从boxplot对象中提取这些值以在下游代码中使用?

13得票2回答
使用R进行多元异常检测与概率相关

我一直在寻找最佳方法,使用R识别多元异常值,但我认为我还没有找到可信的方法。 我们可以以鸢尾花数据为例,因为我的数据也包含多个字段。 data(iris) df <- iris[, 1:4] #only taking the four numeric fields 首先,我正在使...

12得票3回答
ggplot2颜色比例尺受异常值影响过大

我在使用颜色比例尺时遇到了一些离群值,导致比例尺无法使用。 我的数据有一个基于范围的长度变量,但通常会有一些更大的值。以下示例数据中,500和1500之间有95个数值,而超过50000的数值只有5个。结果的颜色图例往往在颜色变化时使用10k、20k等70k,而我想看到的是在500和1500之...

12得票7回答
从一组数据中排除异常值的高效准确算法是什么?

我有一组包含200个数据行的数据集(意味着这是一个小型数据集)。在进行统计分析之前,我想排除异常值。 有哪些潜在的算法可以实现这个目的?精度是一个关键问题。 我对统计学非常陌生,因此需要一些基础算法的帮助。

12得票1回答
在 ggplot2 的箱线图中忽略异常值 + 分面 + "free" 选项

我该如何调整Y轴以忽略异常值,就像这篇文章中所述,但在更具挑战性的情况下,我有4个箱线图和一个“自由分面”布局? 如您在我的图表上所见,考虑到Y轴范围内的异常值会使箱子更难读取。如果结果中仍然可见一些异常值,则无关紧要,但我真正想专注于箱子! p <- ggplot(molten...

12得票4回答
数据挖掘中的异常检测

我有关于异常值检测的几个问题: 我们能否使用k-means算法找到异常值,这是一个好方法吗? 是否有任何无需用户输入的聚类算法? 我们能否使用支持向量机或其他监督学习算法进行异常值检测? 每种方法的优缺点是什么?

11得票3回答
使用滚动中位数在Pandas数据框中过滤异常值

我正在尝试从具有日期的GPS高程偏移散点图中过滤掉一些异常值。 我试图使用df.rolling计算每个窗口的中位数和标准差,然后删除大于3个标准差的点。 但是,我无法想出一种方法来循环遍历列并比较滚动计算的中位数值。 这是我到目前为止的代码:import pandas as pd imp...

11得票6回答
去除时间序列中的异常值的有效方法

我正在寻找有效的方法来去除我的数据中的异常值。我尝试了一些在StackOverflow和其他地方找到的解决方案,但是它们都对我没有起作用(在1993年6月、1994年8月和1995年3月的样本数据中,应该检测到并删除4个高值,分别为21637、19590、21659和200000)。非常感谢任...

10得票2回答
如何重复Grubbs检验并标记异常值

我想对一组数据应用 Grubbs 检验,直到不再找到异常值为止。我想标记异常值而不是删除它们,以便我可以将数据绘制成直方图并将异常值显示为不同的颜色。我已经使用来自“outliers”包的“grubbs.test”手动识别了异常值,但无法弄清如何循环遍历它们并成功地标记它们。我的目标输出类似于...