7得票1回答
复制神经网络用于异常检测,阶跃函数导致相同的预测。

在我的项目中,我的一个目标是在航空发动机数据中找到异常值,并选择使用复制神经网络来实现,并阅读了关于它的以下报告(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.12.3366&rep=rep1&type=pdf...

18得票5回答
在R中使用ggplot2制作多个箱线图,并完全移除异常值,并以扩展格式显示箱线图。

我有一些数据在这里(一个 .txt 文件),我将其读入到一个名为 df 的数据框中。 df <- read.table("data.txt", header=T,sep="\t") 我使用以下代码从df中的列x中删除负值(因为我只需要正值): yp <- subset(df...

12得票3回答
ggplot2颜色比例尺受异常值影响过大

我在使用颜色比例尺时遇到了一些离群值,导致比例尺无法使用。 我的数据有一个基于范围的长度变量,但通常会有一些更大的值。以下示例数据中,500和1500之间有95个数值,而超过50000的数值只有5个。结果的颜色图例往往在颜色变化时使用10k、20k等70k,而我想看到的是在500和1500之...

7得票3回答
单变量异常值检测

这次我不会直接问如何检测异常值,就像之前我在一个问题中提到的那样。我读了一些与这个主题相关的帖子,但没有得到我需要的东西。我有一组给定的值,如下所示: y<-c(0.59, 0.61, 0.59, 1.55, 1.33, 3.50, 1.00, 1.22, 2.50, 3.00, 3....

22得票3回答
时间序列预测,如何处理已知的大订单

我有许多数据集,其中包含已知的异常值(大额订单)。data <- matrix(c("08Q1","08Q2","08Q3","08Q4","09Q1","09Q2","09Q3","09Q4","10Q1","10Q2","10Q3","10Q4","11Q1","11Q2","11Q...

7得票2回答
从k-mean聚类中删除异常值

我有许多包含10个XY坐标的小数据集。我正在使用Matlab(R2012a)和k-means来获取质心。在某些聚类中(如下图所示),由于我的数据集太小,一个离群值会破坏我的质心值。有没有一种简单的方法来排除这些点?据说Matlab有一个“排除离群值”的函数,但我在工具菜单中找不到它。谢谢你的帮...

46得票1回答
Matplotlib的箱线图(boxplot)不包含异常值。

有没有办法在matplotlib(Python)中绘制箱线图时隐藏异常值? 我正在使用最简单的绘图方法: from pylab import * boxplot([1,2,3,4,5,10]) show() 这给我一个如下的图表: (由于我的声誉不够,我无法发布图片,但基...

10得票2回答
如何重复Grubbs检验并标记异常值

我想对一组数据应用 Grubbs 检验,直到不再找到异常值为止。我想标记异常值而不是删除它们,以便我可以将数据绘制成直方图并将异常值显示为不同的颜色。我已经使用来自“outliers”包的“grubbs.test”手动识别了异常值,但无法弄清如何循环遍历它们并成功地标记它们。我的目标输出类似于...

8得票2回答
Pandas:将所有列中的异常值替换为NaN

我有一个包含三列的数据框,例如: c1,c2,c3 10000,1,2 1,3,4 2,5,6 3,1,122 4,3,4 5,5,6 6,155,6 我想将所有超出2个标准差的列中的异常值替换掉。使用以下代码,我可以创建一个不包含异常值的数据框。 df[df.ap...

11得票6回答
去除时间序列中的异常值的有效方法

我正在寻找有效的方法来去除我的数据中的异常值。我尝试了一些在StackOverflow和其他地方找到的解决方案,但是它们都对我没有起作用(在1993年6月、1994年8月和1995年3月的样本数据中,应该检测到并删除4个高值,分别为21637、19590、21659和200000)。非常感谢任...