22得票2回答
如何交叉验证随机森林模型?

我想评估正在训练一些数据的随机森林。Apache Spark中是否有任何实用程序可以执行相同的操作,还是我必须手动执行交叉验证?

22得票5回答
Spark、ML、StringIndexer:如何处理未知标签

我的目标是构建一个多分类器。 我已经建立了一个特征提取的流程,并且第一步包括使用StringIndexer转换器来将每个类别名称映射到一个标签,该标签将在分类器训练阶段使用。 这个流程被用于对训练集进行拟合。 测试集必须经过拟合后的流程处理,以便提取相同的特征向量。 考虑到我的测试集文...

20得票1回答
如何在DataFrame中合并多个特征向量?

使用 Spark ML 转换器,我得到了一个 DataFrame,其中每一行看起来像这样:Row(object_id, text_features_vector, color_features, type_features) 对于这种情况,使用Spark的设施,将text_features作为...

19得票3回答
Spark MLlib中DataFrame的列'rawPrediction'和'probability'是什么意思?

在训练了LogisticRegressionModel后,我使用它转换了测试数据DF,并得到了预测DF。然后当我调用prediction.show()时,输出的列名为:[label | features | rawPrediction | probability | prediction]。我...

19得票2回答
Apache Spark在遇到缺失特征时会抛出NullPointerException异常。

我在使用PySpark中索引包含字符串的特征列时遇到了奇怪的问题。这是我的tmp.csv文件:x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1...

18得票1回答
在Spark ML管道中缓存中间结果

最近我正在计划将独立的Python ML代码迁移到Spark上。 spark.ml中的ML管道非常方便,具有流畅的API,可以链接算法阶段和超参数网格搜索。 然而,我发现其对于一个重要功能的支持在现有文档中比较模糊:缓存中间结果。当管道涉及计算密集型阶段时,这个功能的重要性就体现出来了。 ...

18得票3回答
如何从DataFrame准备数据为LibSVM格式?

我想制作libsvm格式,所以我将数据框转换为所需的格式,但我不知道如何将其转换为libsvm格式。格式如图所示。我希望所需的libsvm类型为user item:rating。如果您知道如何处理当前情况:val ratings = sc.textFile(new File("/user/ub...

18得票3回答
使用Pyspark提取ROC曲线?

有没有一种方法可以在pyspark中从Spark ML获取ROC曲线上的点?在文档中,我看到了Scala的示例,但没有Python的示例:https://spark.apache.org/docs/2.1.0/mllib-evaluation-metrics.html 这样对吗?我当然可以想出...

17得票2回答
PySpark中的KMeans聚类

我有一个名为'mydataframe'的Spark数据帧,其中包含许多列。我正在尝试仅对两列进行kmeans聚类:纬度和经度(使用它们作为简单值)。我想基于这两个列提取7个簇,然后将集群分配附加到我的原始数据框中。我尝试过:from numpy import array from math i...

17得票1回答
Spark异常:无法将空值组装。

我希望使用 StandardScaler 对特征进行归一化处理。 以下是我的代码:val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorA...