我无法找到处理分类数据离群值的解决方案。我的数据由行组合而成。我希望标记在某些组合中不同于其他行的离群值。
如上所述,我不能将数据聚类为非离群值行和具有相同频率的离群值行。
我的数据看起来像这样:
请提供一个有效的逻辑来解决这个问题。我也试图基于频率分布数据,但我无法指定阈值,因为我无法找到一个值来考虑数据作为离群值。提供一种寻找阈值的方法也可以帮助。
如上所述,我不能将数据聚类为非离群值行和具有相同频率的离群值行。
我的数据看起来像这样:
请提供一个有效的逻辑来解决这个问题。我也试图基于频率分布数据,但我无法指定阈值,因为我无法找到一个值来考虑数据作为离群值。提供一种寻找阈值的方法也可以帮助。
df['c1'].value_counts()
进行解释性说明,但是你的问题非常不清晰,我无法根据你提供的信息做更多的事情。 - A. Traoré<0.05
这样的阈值并不适用于所有情况。我的问题是是否有一种方法可以从给定的分布中自动获取阈值或某种动态阈值来检测“罕见”的类别。请帮忙,谢谢。 - Aayush Shah