得票数最多 'apache-spark-ml' 问题 - 第5页

关联标签

15得票4回答

通过pyspark.ml CrossValidator调整隐式pyspark.ml ALS矩阵分解模型的参数

我正在尝试调整使用隐式数据的ALS矩阵分解模型的参数。为此，我尝试使用pyspark.ml.tuning.CrossValidator来运行参数网格并选择最佳模型。我相信我的问题在于评估器，但我无法解决它。对于具有回归RMSE评估器的显式数据模型，我可以使其正常工作，如下所示：from pys...

pythonapache-sparkpysparkapache-spark-ml

15得票3回答

如何将ML Pipeline中的模型保存到S3或HDFS？

我正在尝试保存由ML Pipeline生成的数千个模型。如这里的答案所示，可以按以下方式保存模型：import java.io._ def saveModel(name: String, model: PipelineModel) = { val oos = new ObjectOutp...

javascalaapache-sparkapache-spark-mllibapache-spark-ml

14得票5回答

Pyspark错误：py4j.java_gateway：尝试连接Java服务器（127.0.0.1:50532）时发生错误。

你好，我正在使用Pyspark进行工作，首次使用ML包实现情感分析项目。代码一直运行良好，但突然出现了上述错误： ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (12...

pysparkapache-spark-mlpy4j

14得票1回答

在Python中从Spark DataFrame创建带标签的点（labeledPoints）

我应该使用Python中的哪个.map()函数来从Spark数据框创建一组labeledPoints？如果标签/结果不是第一列，但我可以引用它的列名'status'，该怎么写？我使用以下代码创建Python数据框： def parsePoint(line): listmp = l...

pythonpandasapache-sparkapache-spark-mllibapache-spark-ml

13得票3回答

如何将包含 SparseVector 的 RDD 转换为包含 Vector 列的 DataFrame

我有一个包含（String，SparseVector）值元组的RDD，我想使用该RDD创建一个DataFrame。为了获得大多数ml算法库所需的模式（label：string，features：vector）DataFrame。我知道这是可行的，因为HashingTF ml库在给定DataF...

apache-sparkpysparkapache-spark-sqlapache-spark-mllibapache-spark-ml

12得票3回答

如何在PySpark中覆盖Spark ML模型？

from pyspark.ml.regression import RandomForestRegressionModel rf = RandomForestRegressor(labelCol="label",featuresCol="features", numTrees=5, maxD...

apache-sparkmachine-learningpysparkapache-spark-mllibapache-spark-ml

12得票2回答

Spark ML - MulticlassClassificationEvaluator - 我们能否按照每个类别标签获取精确度/召回率？

我在使用Spark ML中的随机森林进行多类预测。在Spark ML中的MulticlassClassificationEvaluator()中，是否可以按每个类别标签获取精确度/召回率？目前，我只能看到所有类别的精确度/召回率的组合。

apache-sparkmachine-learningapache-spark-mlmulticlass-classification

12得票2回答

如何从Spark ML随机森林获取与类相对应的概率

我一直在使用org.apache.spark.ml.Pipeline进行机器学习任务。对于预测标签，知道实际概率而非仅有预测标签尤为重要，但是我却难以获得实际概率。我正在使用随机森林进行二元分类任务，类别标签为“Yes”和“No”。我想输出"Yes"的概率。概率以DenseVector形式存储...

scalaapache-sparkapache-spark-ml

12得票3回答

如何在PySpark管道中使用XGBoost

我想更新我的pyspark代码。在pyspark中，必须将基本模型放入管道中，管道的office demo使用逻辑回归作为基本模型。然而，似乎无法在管道API中使用XGboost模型。我该如何像这样使用pyspark？ from xgboost import XGBClassifier .....

apache-sparkpysparkapache-spark-mllibxgboostapache-spark-ml

11得票1回答

ALS模型 - 预测的full_u * v^t * v评分非常高。

我正在预测批量训练模型之间的评级。我正在使用此处概述的方法：ALS模型-如何生成完整的u * v^t * v？ ! rm -rf ml-1m.zip ml-1m ! wget --quiet http://files.grouplens.org/datasets/movielens/ml-...

apache-sparkapache-spark-mllibapache-spark-ml