最新 'outliers' 问题 - 第4页

关联标签

8得票1回答

我有一个包含5个变量和800行的数据框： head(df) V1 variable value element OtolithNum 1 24.9835 V7 130230.0 Mg 25 2 24.9835 V8 145...

13得票2回答

我一直在寻找最佳方法，使用R识别多元异常值，但我认为我还没有找到可信的方法。我们可以以鸢尾花数据为例，因为我的数据也包含多个字段。 data(iris) df <- iris[, 1:4] #only taking the four numeric fields 首先，我正在使...

7得票1回答

有没有在Spark 2.0.0中可用的预构建异常值检测算法/四分位距识别方法？我在这里找到了一些代码，但我认为这些代码在spark2.0.0中还不可用。谢谢

8得票2回答

我有一个包含三列的数据框，例如： c1,c2,c3 10000,1,2 1,3,4 2,5,6 3,1,122 4,3,4 5,5,6 6,155,6 我想将所有超出2个标准差的列中的异常值替换掉。使用以下代码，我可以创建一个不包含异常值的数据框。 df[df.ap...

31得票5回答

我有一个名为df的DataFrame，其中有40个列和许多记录。 df:User_id | Col1 | Col2 | Col3 | Col4 | Col5 | Col6 | Col7 |...| Col39 对于除了“user_id”列之外的每一列，我希望检查是否存在异常值，并在出现异常值...

7得票3回答

我正在尝试理解如何在数据框的组中识别统计离群值。我需要根据条件对行进行分组，然后将这些组缩减为一行，并在所有缩减行中查找离群值。 df = pd.DataFrame({'X0': {0: 1, 1: 1, 2: 1, 3: 1, 4: 0, 5: 1, 6: 1, 7: 1, 8: 0, 9...

23得票2回答

我有一个欺诈检测算法，想要验证它是否对真实世界的数据集有效。我的算法判断索赔是否异常。是否有任何可用的数据集？

12得票1回答

我该如何调整Y轴以忽略异常值，就像这篇文章中所述，但在更具挑战性的情况下，我有4个箱线图和一个“自由分面”布局？如您在我的图表上所见，考虑到Y轴范围内的异常值会使箱子更难读取。如果结果中仍然可见一些异常值，则无关紧要，但我真正想专注于箱子！ p <- ggplot(molten...

7得票3回答

这次我不会直接问如何检测异常值，就像之前我在一个问题中提到的那样。我读了一些与这个主题相关的帖子，但没有得到我需要的东西。我有一组给定的值，如下所示： y<-c(0.59, 0.61, 0.59, 1.55, 1.33, 3.50, 1.00, 1.22, 2.50, 3.00, 3....

12得票3回答

我在使用颜色比例尺时遇到了一些离群值，导致比例尺无法使用。我的数据有一个基于范围的长度变量，但通常会有一些更大的值。以下示例数据中，500和1500之间有95个数值，而超过50000的数值只有5个。结果的颜色图例往往在颜色变化时使用10k、20k等70k，而我想看到的是在500和1500之...