我有一个在pyspark中的Spark ML pipeline,看起来像这样:
训练模型后,我想像sklearn中的this函数一样,为每个样本获取轮廓系数。
我知道可以使用ClusteringEvaluator并为整个数据集生成分数。但我想为每个样本执行此操作。
在pyspark中如何高效实现?
scaler = StandardScaler(inputCol="features", outputCol="scaled_features")
pca = PCA(inputCol=scaler.getOutputCol(), outputCol="pca_output")
kmeans = clustering.KMeans(seed=2014)
pipeline = Pipeline(stages=[scaler, pca, kmeans])
训练模型后,我想像sklearn中的this函数一样,为每个样本获取轮廓系数。
我知道可以使用ClusteringEvaluator并为整个数据集生成分数。但我想为每个样本执行此操作。
在pyspark中如何高效实现?