使用Python进行高维异常值检测

3

请问有没有一个稳健的Python算法实现,例如Robust-PCA或基于角度的异常检测(ABOD)?我尝试过几个Robust-PCA的Python实现,但它们非常占用内存,程序崩溃了。我的数据集是60,000 X 900个浮点数。R有一个ABOD的实现,但我想坚持使用Python。

1个回答

1
离群值检测非常重要,有很多研究出版物在处理它。基于密度的算法的可扩展性并不真正高效。我使用PCA来降低维度,以及局部离群因子方法。您可以在以下链接中找到用于大规模数据的良好实现版本: https://github.com/damjankuznar/pylof/blob/master/lof.py 希望对您有所帮助。

值得一提的是,这已经在当前版本的 scikit learn 中实现了:http://scikit-learn.org/stable/modules/outlier_detection.html - tupui

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接