我对RCF算法的理解有些困难,尤其是它如何期望/预处理数据或应完成的预处理工作?例如,我有大约500K条记录的以下数据/特征(带有示例值):
我的RCF模型的结果(基于500K记录的57个特征 - 金额、30个国家虚拟变量和26个类别虚拟变量)非常关注金额特征(例如,所有异常值都在1000.00左右以上,无论国家或类型没有任何变化)。此外,我还对金额字段进行了归一化处理,但结果并不是特别好。事实上,可以说结果很糟糕,我显然错过了什么。总的来说,我正在寻求一些关于正确获取特征的指导(再次强调 - 1个金额字段和2个分类和虚拟化字段1和0 - 共约57个字段)。我在想是否最好使用kmeans之类的东西。编辑:这里提供一些背景信息...我想知道:
1)权重 - 是否有方法给某些变量赋权重(例如,一个分类变量比另一个更重要)。例如,我正在使用Country和Category作为关键属性,并希望在Category上赋予更多的权重而不是Country。
2)上下文 - 如何确保异常值在其同类数据的情境中被考虑?例如,一笔5000美元的“机票”费用交易对于该类别来说不是异常值,但对于其他类别来说却是。我可以创建N个模型,但那会变得混乱和繁琐,对吗?
我查阅了大部分可用文档(https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_how-it-works.html),但没有找到任何描述这个的内容!
非常感谢您的帮助!
编辑:目前还没有合理的结果,但我已经使用了以下超参数:
num_samples_per_tree=256,
num_trees=100