13得票1回答
Spark线性回归摘要“正常”摘要

根据LinearRegressionSummary(Spark 2.1.0 JavaDoc),p值仅适用于“正常”求解器。 仅当使用“正常”求解器时才可用此值。 “正常”求解器是什么意思呢? 我正在做这个:import org.apache.spark.ml.{Pipeline,...

13得票1回答
如何在Spark SQL中为表添加递增列ID

我正在开发一个Spark MLlib算法。 我有的数据集格式如下: "Company": "XXXX","CurrentTitle": "XYZ","Edu_Title": "ABC","Exp_mnth":.(还有更多类似的值) 我试图将字符串值转换为数字值。 因此,我尝试使用zipwi...

13得票2回答
如何从Spark Dataframe列中的向量中提取一个值

使用SparkML进行标签预测的结果Dataframe如下:scala> result.show +-----------+--------------+ |probability|predictedLabel| +-----------+--------------+ | [0.0,...

13得票3回答
如何将包含 SparseVector 的 RDD 转换为包含 Vector 列的 DataFrame

我有一个包含(String,SparseVector)值元组的RDD,我想使用该RDD创建一个DataFrame。为了获得大多数ml算法库所需的模式(label:string,features:vector)DataFrame。 我知道这是可行的,因为HashingTF ml库在给定DataF...

13得票4回答
在Spark中运行任务时出现ExecutorLostFailure错误

我尝试在这个文件夹上运行它时,总是会抛出ExecutorLostFailure错误。 你好,我是一个Spark的初学者。我正在尝试在拥有8个从节点的Spark 1.4.1上运行一个作业,每个从节点有11.7 GB内存和3.2 GB磁盘空间。我正在从其中一个从节点(共8个节点)上运行Spark...

12得票3回答
如何在PySpark中覆盖Spark ML模型?

from pyspark.ml.regression import RandomForestRegressionModel rf = RandomForestRegressor(labelCol="label",featuresCol="features", numTrees=5, maxD...

12得票1回答
Spark K-fold 交叉验证

我有些困惑如何理解Spark的交叉验证。我看到的所有示例都是用于参数调整,但我认为它也可以进行常规的K折交叉验证,对吗? 我的目标是执行k-fold交叉验证,其中k = 5。我想获得每个结果的准确性,然后获得平均准确性。 在scikit-learn中,这是如何完成的,其中scores将为您提...

12得票2回答
Spark CrossValidatorModel可以访问除bestModel以外的其他模型吗?

我正在使用Spark 1.6.1: 目前,我正在使用CrossValidator来训练我的ML Pipeline,并使用各种参数。在训练过程结束后,我可以使用CrossValidatorModel的bestModel属性来获取在交叉验证期间表现最佳的模型。 其他交叉验证的模型是否会自动丢弃,...

12得票3回答
使用DataFrame与MLlib

假设我有一个数据框(从HDFS上读入的csv文件),我想通过MLlib对其进行一些算法训练。我该如何将行转换为LabeledPoints或以其他方式利用MLlib在此数据集上进行操作?

12得票4回答
DBSCAN在Spark上的实现:哪种实现方式更好?

我想在Spark上进行一些DBSCAN操作,目前我找到了两个实现: https://github.com/irvingc/dbscan-on-spark https://github.com/alitouka/spark_dbscan 我已经按照第一个库的GitHub中给出的sbt配置...