得票数最多 'apache-spark-mllib' 问题 - 第4页

关联标签

18得票2回答

ALS模型的增量训练

我正在尝试找出在使用Apache Spark中的MLlib是否可以进行数据“增量训练”的方法。我的平台是Prediction IO，它基本上是Spark（MLlib）、HBase、ElasticSearch和一些其他Restful部分的包装器。在我的应用程序中，“事件”数据实时插入，但...

apache-sparkmachine-learningpredictionapache-spark-mllibpredictionio

18得票3回答

从Numpy矩阵创建Spark dataframe

这是我第一次使用PySpark（Spark 2），我试图为Logit模型创建一个玩具数据框。我已经成功运行了教程，现在想把自己的数据传递进去。我尝试了以下代码：%pyspark import numpy as np from pyspark.ml.linalg import Vectors...

numpyapache-sparkpysparkapache-spark-sqlapache-spark-mllib

17得票2回答

PySpark中的KMeans聚类

我有一个名为'mydataframe'的Spark数据帧，其中包含许多列。我正在尝试仅对两列进行kmeans聚类：纬度和经度（使用它们作为简单值）。我想基于这两个列提取7个簇，然后将集群分配附加到我的原始数据框中。我尝试过：from numpy import array from math i...

machine-learningpysparkk-meansapache-spark-mllibapache-spark-ml

17得票5回答

PySpark和MLLib：随机森林特征重要性

我正在尝试使用PySpark提取已训练的随机森林对象的特征重要性。然而，在文档中我没有看到任何实现此操作的例子，而且RandomForestModel也没有相应的方法。我该如何从 PySpark 中的RandomForestModel回归器或分类器中提取特征重要性呢？下面是文档中提供的示例...

apache-sparkpysparkrandom-forestapache-spark-mllib

17得票3回答

如何在Spark dataframe中用新列覆盖整个现有列？

我想用一个新的二进制标志列覆盖Spark列。我尝试直接覆盖列id2，但为什么它不像Pandas中的就地操作一样运行？如何在不使用withcolumn()创建新列和drop()删除旧列的情况下完成此操作？我知道Spark DataFrame是不可变的，这是原因还是有其他方法可以在不使用withc...

apache-sparkdataframepysparkapache-spark-sqlapache-spark-mllib

17得票2回答

org.apache.spark.ml.classification和org.apache.spark.mllib.classification的区别

我正在编写一个Spark应用程序并希望在MLlib中使用算法。在API文档中，我发现了同一算法的两个不同类别。例如，org.apache.spark.ml.classification中有一个LogisticRegression，而org.apache.spark.mllib.classifi...

scalaapache-sparkapache-spark-mllib

17得票1回答

Apache Spark MLLib：如何为字符串特征构建标记点？

我正在尝试使用Spark的MLLib构建一个朴素贝叶斯分类器，其输入为一组文档。我想将一些内容作为特征（即作者，显式标签，隐含关键字，类别），但是查看文档后，发现LabeledPoint仅包含双精度浮点数，即它看起来像LabeledPoint[Double，List [Pair [Doubl...

javaapache-sparkmachine-learningapache-spark-mllibfeature-selection

17得票3回答

Spark Word2vec向量数学

我在 Spark 网站上查看了 Word2Vec 的示例： val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model =...

apache-sparkmachine-learningapache-spark-mllibword2vec

17得票1回答

如何从Spark ML Lib中的TF Vector RDD获取单词细节？

我使用Spark中的HashingTF创建了术语频率。对于每个单词，我使用tf.transform得到了其词频。但结果以以下格式显示。[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ......

apache-sparkapache-spark-mllibtf-idfapache-spark-ml

16得票4回答

在Spark\PySpark中，保存和加载模型的正确方式是什么？

我正在使用PySpark和MLlib与Spark 1.3.0一起工作，需要保存并加载模型。我使用的代码类似于这样（摘自官方文档）from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating da...

pythonapache-sparkpysparkapache-spark-mllib