45得票5回答
matplotlib: 绘图时如何忽略异常值

我正在绘制来自各种测试的一些数据。有时在一个测试中,我会有一个异常值(比如0.1),而其他所有值都小三个数量级。 使用matplotlib,我将绘图范围设为[0,max_data_value] 如何仅缩放我的数据并不显示异常值,这将破坏我的绘图x轴? 我是否应该简单地取95个百分位数,...

8得票2回答
Pandas:将所有列中的异常值替换为NaN

我有一个包含三列的数据框,例如: c1,c2,c3 10000,1,2 1,3,4 2,5,6 3,1,122 4,3,4 5,5,6 6,155,6 我想将所有超出2个标准差的列中的异常值替换掉。使用以下代码,我可以创建一个不包含异常值的数据框。 df[df.ap...

18得票4回答
如何在R代码中使用异常值检测

作为我的数据分析流程的一部分,我希望测试是否存在异常值,然后在包含和不包含这些异常值的情况下进行进一步的计算。 我发现了一个名为“outlier”的软件包,它有各种测试方法,但我不确定如何最好地将其用于我的工作流程中。

46得票1回答
Matplotlib的箱线图(boxplot)不包含异常值。

有没有办法在matplotlib(Python)中绘制箱线图时隐藏异常值? 我正在使用最简单的绘图方法: from pylab import * boxplot([1,2,3,4,5,10]) show() 这给我一个如下的图表: (由于我的声誉不够,我无法发布图片,但基...

7得票3回答
使用pandas识别统计异常值:按组分组并将行缩减到不同的数据框中。

我正在尝试理解如何在数据框的组中识别统计离群值。我需要根据条件对行进行分组,然后将这些组缩减为一行,并在所有缩减行中查找离群值。 df = pd.DataFrame({'X0': {0: 1, 1: 1, 2: 1, 3: 1, 4: 0, 5: 1, 6: 1, 7: 1, 8: 0, 9...

7得票2回答
从k-mean聚类中删除异常值

我有许多包含10个XY坐标的小数据集。我正在使用Matlab(R2012a)和k-means来获取质心。在某些聚类中(如下图所示),由于我的数据集太小,一个离群值会破坏我的质心值。有没有一种简单的方法来排除这些点?据说Matlab有一个“排除离群值”的函数,但我在工具菜单中找不到它。谢谢你的帮...

7得票1回答
复制神经网络用于异常检测,阶跃函数导致相同的预测。

在我的项目中,我的一个目标是在航空发动机数据中找到异常值,并选择使用复制神经网络来实现,并阅读了关于它的以下报告(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.12.3366&rep=rep1&type=pdf...

12得票1回答
在 ggplot2 的箱线图中忽略异常值 + 分面 + "free" 选项

我该如何调整Y轴以忽略异常值,就像这篇文章中所述,但在更具挑战性的情况下,我有4个箱线图和一个“自由分面”布局? 如您在我的图表上所见,考虑到Y轴范围内的异常值会使箱子更难读取。如果结果中仍然可见一些异常值,则无关紧要,但我真正想专注于箱子! p <- ggplot(molten...

9得票4回答
如何在R中用第5个和第95个百分位数值替换异常值

我希望能替换掉在我的相对较大的 R 数据集中取值在第95个和第5个百分位之上或之下的所有数值,使它们分别等于这些百分位的数值。 我的目标是避免完全删去数据中的离群值。 如有建议,十分感谢。我在其他地方找不到如何做到这一点的信息。

13得票2回答
从Matplotlib中找到异常点:箱线图

我正在使用matplotlib的boxplot函数绘制一个非正态分布,并且希望通过boxplot函数找到离群值。 除了这个图,我还想知道我的代码中显示为离群点的数值。是否有任何方法可以从boxplot对象中提取这些值以在下游代码中使用?