389得票18回答
在pandas DataFrame中检测和排除异常值

我有一个带有几列的pandas数据框。 现在我知道某些行是基于某列值的异常值。 例如 列Vol的所有值都在12xx左右,而一个值是4000(异常值)。 我想要排除那些具有这样的Vol列的行。 因此,本质上我需要在数据框上设置一个过滤器,以便选择所有某列值在平均值的3个标准差范围内的行。 有...

46得票1回答
Matplotlib的箱线图(boxplot)不包含异常值。

有没有办法在matplotlib(Python)中绘制箱线图时隐藏异常值? 我正在使用最简单的绘图方法: from pylab import * boxplot([1,2,3,4,5,10]) show() 这给我一个如下的图表: (由于我的声誉不够,我无法发布图片,但基...

45得票5回答
matplotlib: 绘图时如何忽略异常值

我正在绘制来自各种测试的一些数据。有时在一个测试中,我会有一个异常值(比如0.1),而其他所有值都小三个数量级。 使用matplotlib,我将绘图范围设为[0,max_data_value] 如何仅缩放我的数据并不显示异常值,这将破坏我的绘图x轴? 我是否应该简单地取95个百分位数,...

34得票1回答
如何在R中去除箱线图中的异常值?

可能重复的问题: 更改盒图中异常值的规则 我需要使用箱线图来可视化我的结果。x<-rnorm(10000) boxplot(x,horizontal=TRUE,axes=FALSE) 如何在可视化时过滤异常值? (1) 这样我就可以全屏显示图片,而不会有丑陋的异常值。 ...

31得票5回答
使用百分位数在Pandas DataFrame中删除异常值

我有一个名为df的DataFrame,其中有40个列和许多记录。 df:User_id | Col1 | Col2 | Col3 | Col4 | Col5 | Col6 | Col7 |...| Col39 对于除了“user_id”列之外的每一列,我希望检查是否存在异常值,并在出现异常值...

28得票3回答
如何使用孤立森林算法?

我正在尝试检测数据集中的离群值,我发现了sklearn的孤立森林。我不明白它如何工作。我将我的训练数据拟合到其中,它给我返回一个由-1和1值组成的向量。 有人能解释一下它是如何工作的并提供一个例子吗? 我怎么知道离群值是“真正”的离群值? 调整参数? 这是我的代码:clf = Isol...

23得票2回答
需要一组数据用于欺诈检测。

我有一个欺诈检测算法,想要验证它是否对真实世界的数据集有效。 我的算法判断索赔是否异常。 是否有任何可用的数据集?

22得票3回答
时间序列预测,如何处理已知的大订单

我有许多数据集,其中包含已知的异常值(大额订单)。data <- matrix(c("08Q1","08Q2","08Q3","08Q4","09Q1","09Q2","09Q3","09Q4","10Q1","10Q2","10Q3","10Q4","11Q1","11Q2","11Q...

18得票5回答
在R中使用ggplot2制作多个箱线图,并完全移除异常值,并以扩展格式显示箱线图。

我有一些数据在这里(一个 .txt 文件),我将其读入到一个名为 df 的数据框中。 df <- read.table("data.txt", header=T,sep="\t") 我使用以下代码从df中的列x中删除负值(因为我只需要正值): yp <- subset(df...

18得票4回答
如何在R代码中使用异常值检测

作为我的数据分析流程的一部分,我希望测试是否存在异常值,然后在包含和不包含这些异常值的情况下进行进一步的计算。 我发现了一个名为“outlier”的软件包,它有各种测试方法,但我不确定如何最好地将其用于我的工作流程中。