得票数最多 'apache-spark-mllib' 问题 - 第7页

关联标签

13得票1回答

根据LinearRegressionSummary(Spark 2.1.0 JavaDoc)，p值仅适用于“正常”求解器。仅当使用“正常”求解器时才可用此值。 “正常”求解器是什么意思呢？我正在做这个：import org.apache.spark.ml.{Pipeline,...

13得票1回答

我正在开发一个Spark MLlib算法。我有的数据集格式如下： "Company": "XXXX"，"CurrentTitle": "XYZ"，"Edu_Title": "ABC"，"Exp_mnth"：.（还有更多类似的值）我试图将字符串值转换为数字值。因此，我尝试使用zipwi...

13得票2回答

使用SparkML进行标签预测的结果Dataframe如下：scala> result.show +-----------+--------------+ |probability|predictedLabel| +-----------+--------------+ | [0.0,...

13得票3回答

我有一个包含（String，SparseVector）值元组的RDD，我想使用该RDD创建一个DataFrame。为了获得大多数ml算法库所需的模式（label：string，features：vector）DataFrame。我知道这是可行的，因为HashingTF ml库在给定DataF...

13得票4回答

我尝试在这个文件夹上运行它时，总是会抛出ExecutorLostFailure错误。你好，我是一个Spark的初学者。我正在尝试在拥有8个从节点的Spark 1.4.1上运行一个作业，每个从节点有11.7 GB内存和3.2 GB磁盘空间。我正在从其中一个从节点（共8个节点）上运行Spark...

12得票3回答

from pyspark.ml.regression import RandomForestRegressionModel rf = RandomForestRegressor(labelCol="label",featuresCol="features", numTrees=5, maxD...

12得票1回答

我有些困惑如何理解Spark的交叉验证。我看到的所有示例都是用于参数调整，但我认为它也可以进行常规的K折交叉验证，对吗？我的目标是执行k-fold交叉验证，其中k = 5。我想获得每个结果的准确性，然后获得平均准确性。在scikit-learn中，这是如何完成的，其中scores将为您提...

12得票2回答

我正在使用Spark 1.6.1：目前，我正在使用CrossValidator来训练我的ML Pipeline，并使用各种参数。在训练过程结束后，我可以使用CrossValidatorModel的bestModel属性来获取在交叉验证期间表现最佳的模型。其他交叉验证的模型是否会自动丢弃，...

12得票3回答

假设我有一个数据框（从HDFS上读入的csv文件），我想通过MLlib对其进行一些算法训练。我该如何将行转换为LabeledPoints或以其他方式利用MLlib在此数据集上进行操作？

12得票4回答

我想在Spark上进行一些DBSCAN操作，目前我找到了两个实现： https://github.com/irvingc/dbscan-on-spark https://github.com/alitouka/spark_dbscan 我已经按照第一个库的GitHub中给出的sbt配置...