考虑这里给出的代码,
假设我们使用sqlContext.read()读取"dataframe"作为数据帧,我们是否仍需要执行类似以下操作的内容?
或者,如果传递了一个dataFrame,fit函数将自动处理并行计算/数据。
敬礼,
https://spark.apache.org/docs/1.2.0/ml-guide.html
import org.apache.spark.ml.classification.LogisticRegression
val training = sparkContext.parallelize(Seq(
LabeledPoint(1.0, Vectors.dense(0.0, 1.1, 0.1)),
LabeledPoint(0.0, Vectors.dense(2.0, 1.0, -1.0)),
LabeledPoint(0.0, Vectors.dense(2.0, 1.3, 1.0)),
LabeledPoint(1.0, Vectors.dense(0.0, 1.2, -0.5))))
val lr = new LogisticRegression()
lr.setMaxIter(10).setRegParam(0.01)
val model1 = lr.fit(training)
假设我们使用sqlContext.read()读取"dataframe"作为数据帧,我们是否仍需要执行类似以下操作的内容?
val model1 = lr.fit(sparkContext.parallelize(training)) // or some variation of this
或者,如果传递了一个dataFrame,fit函数将自动处理并行计算/数据。
敬礼,