使用Spark结构化流进行实时数据标准化/归一化

4

在实现机器学习算法时,标准化/归一化数据是必要的,甚至可以说是至关重要的。但是,在使用Spark结构化流进行实时处理时,我一直在尝试解决的问题是如何做到这一点。

在历史数据上使用StandardScaler估算器((value(i)-mean) /standard deviation)非常好,并且在我的用例中,这是获得合理聚类结果的最佳方法。但是,我不确定如何将StandardScaler模型与实时数据配合使用。结构化流不允许它。非常感谢任何建议!

换句话说,如何在Spark结构化流中拟合模型?

1个回答

2

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接