使用Spark结构化流进行实时数据标准化/归一化

Question

使用Spark结构化流进行实时数据标准化/归一化

apache-sparkmachine-learningspark-streamingnormalizationspark-structured-streaming

4

在实现机器学习算法时，标准化/归一化数据是必要的，甚至可以说是至关重要的。但是，在使用Spark结构化流进行实时处理时，我一直在尝试解决的问题是如何做到这一点。

在历史数据上使用StandardScaler估算器((value(i)-mean) /standard deviation)非常好，并且在我的用例中，这是获得合理聚类结果的最佳方法。但是，我不确定如何将StandardScaler模型与实时数据配合使用。结构化流不允许它。非常感谢任何建议！

换句话说，如何在Spark结构化流中拟合模型？

- Anas_H

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Anas_H · Accepted Answer

我为此得到了一个答案。目前使用Spark结构化流进行实时机器学习，包括规范化是不可能的；但是，对于某些算法，如果建立/拟合了离线模型，则可以进行实时预测。

请查看：

JIRA-添加对ML管道API的结构化流支持

Google DOC-结构化流上的机器学习