11得票3回答
如何从UDF创建自定义转换器?

我正在尝试创建和保存自定义阶段的 Pipeline。我需要使用 UDF 将一个 column 添加到我的 DataFrame。因此,我想知道是否可能将 UDF 或类似操作转换为 Transformer? 我的自定义 UDF 如下所示,我想学习如何使用 UDF 作为自定义 Transformer...

11得票2回答
spark.ml的StringIndexer在fit()时抛出'未知标签'错误

我正在准备一个玩具spark.ml例子。运行在Oracle JDK版本1.8.0_65,pyspark,ipython笔记本电脑之上的Spark版本1.6.0。 首先,这与Spark,ML,StringIndexer:处理未见标签几乎没有任何关系。异常是在将管道拟合到数据集时抛出的,而不是转...

11得票1回答
在Spark中向向量列附加元数据

背景:我有一个数据框,其中包含两列:标签和特征。org.apache.spark.sql.DataFrame = [label: int, features: vector] 其中features是使用VectorAssembler构建的mllib.linalg.VectorUDT数值类型。问...

11得票2回答
PySpark:如何评估ML推荐算法的AUC?

我有一个如下的Spark Dataframe:predictions.show(5) +------+----+------+-----------+ | user|item|rating| prediction| +------+----+------+-----------+ |3794...

11得票2回答
参数异常:列必须是struct<type:tinyint,size:int,indices:array<int>,values:array<double>>类型,但实际上是double类型。

我有一个包含多个分类列的数据框。我正在尝试使用内置函数计算两列之间的卡方统计量: from pyspark.ml.stat import ChiSquareTest r = ChiSquareTest.test(df, 'feature1', 'feature2') 然而,它给了我一个...

11得票1回答
在pyspark中保存和加载两个机器学习模型

首先,我创建了两个机器学习算法并将它们保存到两个不同的文件中。需要注意的是,这两个模型都基于同一个数据框架。 feature_1和feature_2是从相同数据集中提取的不同特征集。import sys from pyspark.ml.classification import RandomF...

11得票2回答
在SparkMlib中,对于多个分类列应用OneHotEncoder

我有几个分类特征,希望能够使用OneHotEncoder对它们进行转换。然而,当我尝试应用StringIndexer时,出现了错误:stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol =...

11得票1回答
在PySpark中的PCA分析

查看http://spark.apache.org/docs/latest/mllib-dimensionality-reduction.html,示例似乎只包含Java和Scala。 Spark MLlib是否支持Python中的PCA分析?如果是,请提供一个示例。如果不支持,如何将Spa...

11得票2回答
如何在pyspark中将密集向量的RDD转换为DataFrame?

我有一个像这样的DenseVectorRDD&gt;&gt;&gt; frequencyDenseVectors.collect() [DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]),...

10得票3回答
如何从列号获取pyspark随机森林特征重要性得分的列名

我正在 Spark 中使用标准的(字符串索引器 + one hot 编码器 + 随机森林)管道,如下所示labelIndexer = StringIndexer(inputCol = class_label_name, outputCol="indexedLabel").fit(data) ...