得票数最多 'apache-spark-ml' 问题 - 第6页

关联标签

11得票3回答

如何从UDF创建自定义转换器？

我正在尝试创建和保存自定义阶段的 Pipeline。我需要使用 UDF 将一个 column 添加到我的 DataFrame。因此，我想知道是否可能将 UDF 或类似操作转换为 Transformer？我的自定义 UDF 如下所示，我想学习如何使用 UDF 作为自定义 Transformer...

scalaapache-sparkapache-spark-sqluser-defined-functionsapache-spark-ml

11得票2回答

spark.ml的StringIndexer在fit()时抛出'未知标签'错误

我正在准备一个玩具spark.ml例子。运行在Oracle JDK版本1.8.0_65，pyspark，ipython笔记本电脑之上的Spark版本1.6.0。首先，这与Spark，ML，StringIndexer：处理未见标签几乎没有任何关系。异常是在将管道拟合到数据集时抛出的，而不是转...

apache-sparkdataframepysparkapache-spark-sqlapache-spark-ml

11得票1回答

在Spark中向向量列附加元数据

背景：我有一个数据框，其中包含两列：标签和特征。org.apache.spark.sql.DataFrame = [label: int, features: vector] 其中features是使用VectorAssembler构建的mllib.linalg.VectorUDT数值类型。问...

scalaapache-sparkapache-spark-mllibapache-spark-ml

11得票2回答

PySpark：如何评估ML推荐算法的AUC？

pythonapache-sparkpysparkapache-spark-mllibapache-spark-ml

11得票2回答

参数异常：列必须是struct<type:tinyint,size:int,indices:array<int>,values:array<double>>类型，但实际上是double类型。

我有一个包含多个分类列的数据框。我正在尝试使用内置函数计算两列之间的卡方统计量： from pyspark.ml.stat import ChiSquareTest r = ChiSquareTest.test(df, 'feature1', 'feature2') 然而，它给了我一个...

apache-sparkpysparkapache-spark-ml

11得票1回答

在pyspark中保存和加载两个机器学习模型

首先，我创建了两个机器学习算法并将它们保存到两个不同的文件中。需要注意的是，这两个模型都基于同一个数据框架。 feature_1和feature_2是从相同数据集中提取的不同特征集。import sys from pyspark.ml.classification import RandomF...

pythonapache-sparkpysparkapache-spark-ml

11得票2回答

在SparkMlib中，对于多个分类列应用OneHotEncoder

我有几个分类特征，希望能够使用OneHotEncoder对它们进行转换。然而，当我尝试应用StringIndexer时，出现了错误：stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol =...

pythonapache-sparkpysparkapache-spark-mllibapache-spark-ml

11得票1回答

在PySpark中的PCA分析

查看http://spark.apache.org/docs/latest/mllib-dimensionality-reduction.html，示例似乎只包含Java和Scala。 Spark MLlib是否支持Python中的PCA分析？如果是，请提供一个示例。如果不支持，如何将Spa...

pythonapache-sparkapache-spark-mllibpcaapache-spark-ml

11得票2回答

如何在pyspark中将密集向量的RDD转换为DataFrame？

我有一个像这样的DenseVectorRDD>>> frequencyDenseVectors.collect() [DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]),...

apache-sparkpysparkapache-spark-mllibapache-spark-mlapache-spark-2.0

10得票3回答

如何从列号获取pyspark随机森林特征重要性得分的列名

我正在 Spark 中使用标准的（字符串索引器 + one hot 编码器 + 随机森林）管道，如下所示labelIndexer = StringIndexer(inputCol = class_label_name, outputCol="indexedLabel").fit(data) ...

pysparkapache-spark-mllibrandom-forestapache-spark-ml