8得票1回答
按变量分组的数据框中查找并删除异常值。

我有一个包含5个变量和800行的数据框: head(df) V1 variable value element OtolithNum 1 24.9835 V7 130230.0 Mg 25 2 24.9835 V8 145...

13得票2回答
使用R进行多元异常检测与概率相关

我一直在寻找最佳方法,使用R识别多元异常值,但我认为我还没有找到可信的方法。 我们可以以鸢尾花数据为例,因为我的数据也包含多个字段。 data(iris) df <- iris[, 1:4] #only taking the four numeric fields 首先,我正在使...

7得票1回答
Spark MLlib的异常值检测算法

有没有在Spark 2.0.0中可用的预构建异常值检测算法/四分位距识别方法?我在这里找到了一些代码,但我认为这些代码在spark2.0.0中还不可用。 谢谢

8得票2回答
Pandas:将所有列中的异常值替换为NaN

我有一个包含三列的数据框,例如: c1,c2,c3 10000,1,2 1,3,4 2,5,6 3,1,122 4,3,4 5,5,6 6,155,6 我想将所有超出2个标准差的列中的异常值替换掉。使用以下代码,我可以创建一个不包含异常值的数据框。 df[df.ap...

31得票5回答
使用百分位数在Pandas DataFrame中删除异常值

我有一个名为df的DataFrame,其中有40个列和许多记录。 df:User_id | Col1 | Col2 | Col3 | Col4 | Col5 | Col6 | Col7 |...| Col39 对于除了“user_id”列之外的每一列,我希望检查是否存在异常值,并在出现异常值...

7得票3回答
使用pandas识别统计异常值:按组分组并将行缩减到不同的数据框中。

我正在尝试理解如何在数据框的组中识别统计离群值。我需要根据条件对行进行分组,然后将这些组缩减为一行,并在所有缩减行中查找离群值。 df = pd.DataFrame({'X0': {0: 1, 1: 1, 2: 1, 3: 1, 4: 0, 5: 1, 6: 1, 7: 1, 8: 0, 9...

23得票2回答
需要一组数据用于欺诈检测。

我有一个欺诈检测算法,想要验证它是否对真实世界的数据集有效。 我的算法判断索赔是否异常。 是否有任何可用的数据集?

12得票1回答
在 ggplot2 的箱线图中忽略异常值 + 分面 + "free" 选项

我该如何调整Y轴以忽略异常值,就像这篇文章中所述,但在更具挑战性的情况下,我有4个箱线图和一个“自由分面”布局? 如您在我的图表上所见,考虑到Y轴范围内的异常值会使箱子更难读取。如果结果中仍然可见一些异常值,则无关紧要,但我真正想专注于箱子! p <- ggplot(molten...

7得票3回答
单变量异常值检测

这次我不会直接问如何检测异常值,就像之前我在一个问题中提到的那样。我读了一些与这个主题相关的帖子,但没有得到我需要的东西。我有一组给定的值,如下所示: y<-c(0.59, 0.61, 0.59, 1.55, 1.33, 3.50, 1.00, 1.22, 2.50, 3.00, 3....

12得票3回答
ggplot2颜色比例尺受异常值影响过大

我在使用颜色比例尺时遇到了一些离群值,导致比例尺无法使用。 我的数据有一个基于范围的长度变量,但通常会有一些更大的值。以下示例数据中,500和1500之间有95个数值,而超过50000的数值只有5个。结果的颜色图例往往在颜色变化时使用10k、20k等70k,而我想看到的是在500和1500之...