10得票2回答
如何重复Grubbs检验并标记异常值

我想对一组数据应用 Grubbs 检验,直到不再找到异常值为止。我想标记异常值而不是删除它们,以便我可以将数据绘制成直方图并将异常值显示为不同的颜色。我已经使用来自“outliers”包的“grubbs.test”手动识别了异常值,但无法弄清如何循环遍历它们并成功地标记它们。我的目标输出类似于...

8得票1回答
在ggplot中包含极端离群值的指示

我的数据集中有极少数的异常值,这使得箱线图难以阅读: library(ggplot2) mtcars$mpg[1] <- 60 p <- ggplot(mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() 因此,我想这样指出极...

46得票1回答
Matplotlib的箱线图(boxplot)不包含异常值。

有没有办法在matplotlib(Python)中绘制箱线图时隐藏异常值? 我正在使用最简单的绘图方法: from pylab import * boxplot([1,2,3,4,5,10]) show() 这给我一个如下的图表: (由于我的声誉不够,我无法发布图片,但基...

31得票5回答
使用百分位数在Pandas DataFrame中删除异常值

我有一个名为df的DataFrame,其中有40个列和许多记录。 df:User_id | Col1 | Col2 | Col3 | Col4 | Col5 | Col6 | Col7 |...| Col39 对于除了“user_id”列之外的每一列,我希望检查是否存在异常值,并在出现异常值...

8得票1回答
按变量分组的数据框中查找并删除异常值。

我有一个包含5个变量和800行的数据框: head(df) V1 variable value element OtolithNum 1 24.9835 V7 130230.0 Mg 25 2 24.9835 V8 145...

12得票4回答
数据挖掘中的异常检测

我有关于异常值检测的几个问题: 我们能否使用k-means算法找到异常值,这是一个好方法吗? 是否有任何无需用户输入的聚类算法? 我们能否使用支持向量机或其他监督学习算法进行异常值检测? 每种方法的优缺点是什么?

13得票2回答
从Matplotlib中找到异常点:箱线图

我正在使用matplotlib的boxplot函数绘制一个非正态分布,并且希望通过boxplot函数找到离群值。 除了这个图,我还想知道我的代码中显示为离群点的数值。是否有任何方法可以从boxplot对象中提取这些值以在下游代码中使用?

12得票1回答
在 ggplot2 的箱线图中忽略异常值 + 分面 + "free" 选项

我该如何调整Y轴以忽略异常值,就像这篇文章中所述,但在更具挑战性的情况下,我有4个箱线图和一个“自由分面”布局? 如您在我的图表上所见,考虑到Y轴范围内的异常值会使箱子更难读取。如果结果中仍然可见一些异常值,则无关紧要,但我真正想专注于箱子! p <- ggplot(molten...

8得票2回答
Pandas:将所有列中的异常值替换为NaN

我有一个包含三列的数据框,例如: c1,c2,c3 10000,1,2 1,3,4 2,5,6 3,1,122 4,3,4 5,5,6 6,155,6 我想将所有超出2个标准差的列中的异常值替换掉。使用以下代码,我可以创建一个不包含异常值的数据框。 df[df.ap...

7得票2回答
从k-mean聚类中删除异常值

我有许多包含10个XY坐标的小数据集。我正在使用Matlab(R2012a)和k-means来获取质心。在某些聚类中(如下图所示),由于我的数据集太小,一个离群值会破坏我的质心值。有没有一种简单的方法来排除这些点?据说Matlab有一个“排除离群值”的函数,但我在工具菜单中找不到它。谢谢你的帮...