在Sklearn异常检测方法中，将“contamination”参数设置为“auto”会发生什么？

Question

在Sklearn异常检测方法中，将“contamination”参数设置为“auto”会发生什么？

pythonscikit-learnstatisticsoutliersanomaly-detection

4

我有一个数据集，需要能够控制异常检测模型（孤立森林、椭圆包络、OneClassSVM等）将给定点视为异常值的程度（类似于Z-score或IQR-score）。这意味着我不想事先指定数据集中异常点的百分比，也就是所谓的 contamination 参数，而是希望这个百分比取决于我想让模型多么严格。这和将参数 contamination 设置为 'auto' 是否相同？

这是 Sci-kit Learn 包对此的说明：“如果设置为 'auto'，则阈值的确定方式与原始论文相同。”

这个“原始论文”的是指哪篇？将 contamination 参数设置为 'auto' 能解决我的问题吗？

- Houssam Metni

2个回答

1

论文中使用的污染率为10% https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf "在我们的实验中， Mulcross的基本设置如下：污染比率=10%（异常点数除以总点数），在我们的实验中， Mulcross的基本设置如下：污染比率=10%（异常点数除以总点数）"

- FeiLiao

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- lalfab · Accepted Answer

我一直在看论文，但没有太大的进展，但是当我查看代码时，我找到了答案。请注意实现的这部分内容：

    if self.contamination == "auto":
        # 0.5 plays a special role as described in the original paper.
        # we take the opposite as we consider the opposite of their score.
        self.offset_ = -0.5
        return self

    # else, define offset_ wrt contamination parameter
    self.offset_ = np.percentile(self.score_samples(X),
                                 100. * self.contamination)

您可以在此处查看完整实现：链接。

当您将contamination='auto'设置时，影响模型预测的offset_值将设置为-0.5，而如果您在contamination参数中使用float值，则偏移值将发生变化以实现先前传递的污染率百分比。因此，模型将根据这个决定确定您数据中的污染百分比。