15得票4回答
通过pyspark.ml CrossValidator调整隐式pyspark.ml ALS矩阵分解模型的参数

我正在尝试调整使用隐式数据的ALS矩阵分解模型的参数。为此,我尝试使用pyspark.ml.tuning.CrossValidator来运行参数网格并选择最佳模型。我相信我的问题在于评估器,但我无法解决它。对于具有回归RMSE评估器的显式数据模型,我可以使其正常工作,如下所示:from pys...

15得票3回答
如何将ML Pipeline中的模型保存到S3或HDFS?

我正在尝试保存由ML Pipeline生成的数千个模型。如这里的答案所示,可以按以下方式保存模型:import java.io._ def saveModel(name: String, model: PipelineModel) = { val oos = new ObjectOutp...

14得票5回答
Pyspark错误:py4j.java_gateway:尝试连接Java服务器(127.0.0.1:50532)时发生错误。

你好,我正在使用Pyspark进行工作,首次使用ML包实现情感分析项目。代码一直运行良好,但突然出现了上述错误: ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (12...

14得票1回答
在Python中从Spark DataFrame创建带标签的点(labeledPoints)

我应该使用Python中的哪个.map()函数来从Spark数据框创建一组labeledPoints?如果标签/结果不是第一列,但我可以引用它的列名'status',该怎么写? 我使用以下代码创建Python数据框: def parsePoint(line): listmp = l...

13得票3回答
如何将包含 SparseVector 的 RDD 转换为包含 Vector 列的 DataFrame

我有一个包含(String,SparseVector)值元组的RDD,我想使用该RDD创建一个DataFrame。为了获得大多数ml算法库所需的模式(label:string,features:vector)DataFrame。 我知道这是可行的,因为HashingTF ml库在给定DataF...

12得票3回答
如何在PySpark中覆盖Spark ML模型?

from pyspark.ml.regression import RandomForestRegressionModel rf = RandomForestRegressor(labelCol="label",featuresCol="features", numTrees=5, maxD...

12得票2回答
Spark ML - MulticlassClassificationEvaluator - 我们能否按照每个类别标签获取精确度/召回率?

我在使用Spark ML中的随机森林进行多类预测。 在Spark ML中的MulticlassClassificationEvaluator()中,是否可以按每个类别标签获取精确度/召回率? 目前,我只能看到所有类别的精确度/召回率的组合。

12得票2回答
如何从Spark ML随机森林获取与类相对应的概率

我一直在使用org.apache.spark.ml.Pipeline进行机器学习任务。对于预测标签,知道实际概率而非仅有预测标签尤为重要,但是我却难以获得实际概率。我正在使用随机森林进行二元分类任务,类别标签为“Yes”和“No”。我想输出"Yes"的概率。概率以DenseVector形式存储...

12得票3回答
如何在PySpark管道中使用XGBoost

我想更新我的pyspark代码。在pyspark中,必须将基本模型放入管道中,管道的office demo使用逻辑回归作为基本模型。然而,似乎无法在管道API中使用XGboost模型。我该如何像这样使用pyspark? from xgboost import XGBClassifier .....

11得票1回答
ALS模型 - 预测的full_u * v^t * v评分非常高。

我正在预测批量训练模型之间的评级。 我正在使用此处概述的方法:ALS模型-如何生成完整的u * v^t * v? ! rm -rf ml-1m.zip ml-1m ! wget --quiet http://files.grouplens.org/datasets/movielens/ml-...