我正在尝试理解如何识别统计学上的离群值,并将其发送到电子表格。我需要按索引分组行,然后查找特定列的标准差,任何超过标准差的值都将用于填充电子表格。
df = pandas.DataFrame({'Sex': ['M','M','M','F','F','F','F'], 'Age': [33,42,19,64,12,30,32], 'Height': ['163','167','184','164','162','158','160'],})
使用这样的数据集,我想按性别分组,然后找到超过年龄或身高标准差的条目。大多数示例都是针对整个数据集的标准差,而不是按列分解的。还会有其他列,比如州,所以我不需要每列的标准差,只需要从集合中选择特定的列。
希望输出仅包含在任一列中被识别为统计异常值的行的数据。例如:
0 M 64 164
1 M 19 184
假设64岁的男性身高超过了男性身高标准差,而184厘米的身高超过了男性身高标准差。