如何从Spark管道逻辑模型中提取变量权重？

Question

如何从Spark管道逻辑模型中提取变量权重？

3

我目前正在尝试学习Spark Pipeline（Spark 1.6.0）。我将数据集（训练和测试）导入为oas.sql.DataFrame对象。在执行以下代码后，生成的模型是一个oas.ml.tuning.CrossValidatorModel。

您可以使用model.transform（test）基于Spark中的测试数据进行预测。但是，我想将模型用于预测时所用的权重与来自R的权重进行比较。如何提取模型的预测器权重和截距（如果有）？Scala代码如下：

import sqlContext.implicits._
import org.apache.spark.mllib.linalg.{Vectors, Vector}
import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel}
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.tuning.{ParamGridBuilder, CrossValidator}

val conTrain = sc.textFile("AbsolutePath2Train.txt")
val conTest = sc.textFile("AbsolutePath2Test.txt")

// parse text and convert to sql.DataFrame
val train = conTrain.map { line =>
val parts = line.split(",")
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(" +").map(_.toDouble)))
}.toDF()
val test =conTest.map{ line =>
val parts = line.split(",")
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(" +").map(_.toDouble)))
}.toDF()

// set parameter space and evaluation method
val lr = new LogisticRegression().setMaxIter(400)
val pipeline = new Pipeline().setStages(Array(lr))
val paramGrid = new ParamGridBuilder().addGrid(lr.regParam, Array(0.1, 0.01)).addGrid(lr.fitIntercept).addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0)).build()
val cv = new CrossValidator().setEstimator(pipeline).setEvaluator(new BinaryClassificationEvaluator).setEstimatorParamMaps(paramGrid).setNumFolds(2)

// fit logistic model
val model = cv.fit(train)

// If you want to predict with test
val pred = model.transform(test)

我的Spark环境无法访问。因此，这些代码被重新输入和核对。我希望它们是正确的。到目前为止，我已经尝试在网上搜索和向他人寻求帮助。关于我的编码，欢迎提供建议和批评。

- Jazzy

3个回答

0

我也在寻找完全相同的东西。你可能已经有了答案，但无论如何，这里是它。

import org.apache.spark.ml.classification.LogisticRegressionModel
val lrmodel = model.bestModel.asInstanceOf[LogisticRegressionModel]
print(model.weight, model.intercept)

- Wei Chen

1

尝试在Spark1.6.0上运行，但出现了错误“oas.ml.PipelineModel无法转换为oas.ml.Classification.LogisticRegressionModel”。我添加了一个关于如何以类似的方式实现这一点的答案。谢谢~ - Jazzy

对不起，我当时在使用Spark 1.5.2版本。 - Wei Chen

0

我仍然不确定如何从上述“model”中提取权重。但通过将过程重新结构化为官方教程，以下内容适用于spark-1.6.0：

import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.tuning.{ParamGridBuilder, TrainValidationSplit}
val lr = new LogisticRegression().setMaxIter(400)
val paramGrid = new ParamGridBuilder().addGrid(lr.regParam, Array(0.1, 0.01)).addGrid(lr.fitIntercept).addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0)).build()
val trainValidationSplit = new TrainValidationSplit().setEstimator(lr).setEvaluator(new BinaryClassificationEvaluator).setEstimatorParamMaps(paramGrid).setTrainRatio(0.8)
val restructuredModel = trainValidationSplit.fit(train)
val lrmodel = restructuredModel.bestModel.asInstanceOf[LogisticRegressionModel]
lrmodel.weigths
lrmodel.intercept

我注意到这里的“lrmodel”和上面生成的“model”之间的区别：

model.bestModel --> 得到 oas.ml.Model[_] = pipeline_****

restructuredModel.bestModel --> 得到 oas.ml.Model[_] = logreg_****

这就是为什么我们可以将resturcturedModel.bestModel强制转换为LogisticRegressionModel，但不能将model.bestModel强制转换为它的原因。当我理解差异的原因时，我会添加更多内容。

- Jazzy

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Julian Qian · Accepted Answer

// set parameter space and evaluation method
val lr = new LogisticRegression().setMaxIter(400)
val pipeline = new Pipeline().setStages(Array(lr))
val paramGrid = new ParamGridBuilder().addGrid(lr.regParam, Array(0.1, 0.01)).addGrid(lr.fitIntercept).addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0)).build()
val cv = new CrossValidator().setEstimator(pipeline).setEvaluator(new BinaryClassificationEvaluator).setEstimatorParamMaps(paramGrid).setNumFolds(2)
// you can print lr model coefficients as below
val model = cv.bestModel.asInstanceOf[PipelineModel]
val lrModel = model.stages(0).asInstanceOf[LogisticRegressionModel]
println(s"LR Model coefficients:\n${lrModel.coefficients.toArray.mkString("\n")}")

两个步骤：

从交叉验证结果中得到最佳的管道。
从最佳管道中获取LR模型。这是你代码示例中的第一阶段。