得票数最多 'apache-spark-ml' 问题 - 第3页

标签列表

关联标签

22得票2回答

如何交叉验证随机森林模型？

我想评估正在训练一些数据的随机森林。Apache Spark中是否有任何实用程序可以执行相同的操作，还是我必须手动执行交叉验证？

apache-sparkrandom-forestcross-validationapache-spark-mlapache-spark-mllib

22得票5回答

Spark、ML、StringIndexer：如何处理未知标签

我的目标是构建一个多分类器。我已经建立了一个特征提取的流程，并且第一步包括使用StringIndexer转换器来将每个类别名称映射到一个标签，该标签将在分类器训练阶段使用。这个流程被用于对训练集进行拟合。测试集必须经过拟合后的流程处理，以便提取相同的特征向量。考虑到我的测试集文...

apache-sparkapache-spark-ml

20得票1回答

如何在DataFrame中合并多个特征向量？

使用 Spark ML 转换器，我得到了一个 DataFrame，其中每一行看起来像这样：Row(object_id, text_features_vector, color_features, type_features) 对于这种情况，使用Spark的设施，将text_features作为...

apache-sparkmachine-learningapache-spark-sqlapache-spark-ml

19得票3回答

Spark MLlib中DataFrame的列'rawPrediction'和'probability'是什么意思？

在训练了LogisticRegressionModel后，我使用它转换了测试数据DF，并得到了预测DF。然后当我调用prediction.show()时，输出的列名为：[label | features | rawPrediction | probability | prediction]。我...

apache-spark-sqllogistic-regressionapache-spark-ml

19得票2回答

Apache Spark在遇到缺失特征时会抛出NullPointerException异常。

我在使用PySpark中索引包含字符串的特征列时遇到了奇怪的问题。这是我的tmp.csv文件：x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1...

pythonapache-sparkapache-spark-sqlpysparkapache-spark-ml

18得票1回答

在Spark ML管道中缓存中间结果

最近我正在计划将独立的Python ML代码迁移到Spark上。 spark.ml中的ML管道非常方便，具有流畅的API，可以链接算法阶段和超参数网格搜索。然而，我发现其对于一个重要功能的支持在现有文档中比较模糊：缓存中间结果。当管道涉及计算密集型阶段时，这个功能的重要性就体现出来了。 ...

apache-sparkapache-spark-ml

18得票3回答

如何从DataFrame准备数据为LibSVM格式？

我想制作libsvm格式，所以我将数据框转换为所需的格式，但我不知道如何将其转换为libsvm格式。格式如图所示。我希望所需的libsvm类型为user item:rating。如果您知道如何处理当前情况：val ratings = sc.textFile(new File("/user/ub...

apache-sparkapache-spark-sqlapache-spark-mlliblibsvmapache-spark-ml

18得票3回答

使用Pyspark提取ROC曲线？

有没有一种方法可以在pyspark中从Spark ML获取ROC曲线上的点？在文档中，我看到了Scala的示例，但没有Python的示例：https://spark.apache.org/docs/2.1.0/mllib-evaluation-metrics.html 这样对吗？我当然可以想出...

pysparkapache-spark-ml

17得票2回答

PySpark中的KMeans聚类

我有一个名为'mydataframe'的Spark数据帧，其中包含许多列。我正在尝试仅对两列进行kmeans聚类：纬度和经度（使用它们作为简单值）。我想基于这两个列提取7个簇，然后将集群分配附加到我的原始数据框中。我尝试过：from numpy import array from math i...

machine-learningpysparkk-meansapache-spark-mllibapache-spark-ml

17得票1回答

Spark异常：无法将空值组装。

我希望使用 StandardScaler 对特征进行归一化处理。以下是我的代码：val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorA...

apache-sparkapache-spark-sqlapache-spark-ml