12得票1回答
在 ggplot2 的箱线图中忽略异常值 + 分面 + "free" 选项

我该如何调整Y轴以忽略异常值,就像这篇文章中所述,但在更具挑战性的情况下,我有4个箱线图和一个“自由分面”布局? 如您在我的图表上所见,考虑到Y轴范围内的异常值会使箱子更难读取。如果结果中仍然可见一些异常值,则无关紧要,但我真正想专注于箱子! p <- ggplot(molten...

10得票2回答
如何重复Grubbs检验并标记异常值

我想对一组数据应用 Grubbs 检验,直到不再找到异常值为止。我想标记异常值而不是删除它们,以便我可以将数据绘制成直方图并将异常值显示为不同的颜色。我已经使用来自“outliers”包的“grubbs.test”手动识别了异常值,但无法弄清如何循环遍历它们并成功地标记它们。我的目标输出类似于...

12得票3回答
ggplot2颜色比例尺受异常值影响过大

我在使用颜色比例尺时遇到了一些离群值,导致比例尺无法使用。 我的数据有一个基于范围的长度变量,但通常会有一些更大的值。以下示例数据中,500和1500之间有95个数值,而超过50000的数值只有5个。结果的颜色图例往往在颜色变化时使用10k、20k等70k,而我想看到的是在500和1500之...

28得票3回答
如何使用孤立森林算法?

我正在尝试检测数据集中的离群值,我发现了sklearn的孤立森林。我不明白它如何工作。我将我的训练数据拟合到其中,它给我返回一个由-1和1值组成的向量。 有人能解释一下它是如何工作的并提供一个例子吗? 我怎么知道离群值是“真正”的离群值? 调整参数? 这是我的代码:clf = Isol...

8得票1回答
在ggplot中包含极端离群值的指示

我的数据集中有极少数的异常值,这使得箱线图难以阅读: library(ggplot2) mtcars$mpg[1] <- 60 p <- ggplot(mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() 因此,我想这样指出极...

7得票1回答
Spark MLlib的异常值检测算法

有没有在Spark 2.0.0中可用的预构建异常值检测算法/四分位距识别方法?我在这里找到了一些代码,但我认为这些代码在spark2.0.0中还不可用。 谢谢

7得票1回答
使用RPCA检测异常值

我看到有人使用RPCA来找出时间序列数据中的异常值。我对RPCA的基础和理论有一定了解。我得到了一个Python库,可以做RPCA,大致上会输出两个矩阵(L和S),一个是输入数据的低秩近似,另一个是稀疏矩阵。 输入数据:(行代表一天,10个特征作为列。) DAY 1 - 100,300,3...

18得票5回答
在R中使用ggplot2制作多个箱线图,并完全移除异常值,并以扩展格式显示箱线图。

我有一些数据在这里(一个 .txt 文件),我将其读入到一个名为 df 的数据框中。 df <- read.table("data.txt", header=T,sep="\t") 我使用以下代码从df中的列x中删除负值(因为我只需要正值): yp <- subset(df...

45得票5回答
matplotlib: 绘图时如何忽略异常值

我正在绘制来自各种测试的一些数据。有时在一个测试中,我会有一个异常值(比如0.1),而其他所有值都小三个数量级。 使用matplotlib,我将绘图范围设为[0,max_data_value] 如何仅缩放我的数据并不显示异常值,这将破坏我的绘图x轴? 我是否应该简单地取95个百分位数,...

34得票1回答
如何在R中去除箱线图中的异常值?

可能重复的问题: 更改盒图中异常值的规则 我需要使用箱线图来可视化我的结果。x<-rnorm(10000) boxplot(x,horizontal=TRUE,axes=FALSE) 如何在可视化时过滤异常值? (1) 这样我就可以全屏显示图片,而不会有丑陋的异常值。 ...