18得票2回答
ALS模型的增量训练

我正在尝试找出在使用Apache Spark中的MLlib是否可以进行数据“增量训练”的方法。 我的平台是Prediction IO,它基本上是Spark(MLlib)、HBase、ElasticSearch和一些其他Restful部分的包装器。 在我的应用程序中,“事件”数据实时插入,但...

18得票3回答
从Numpy矩阵创建Spark dataframe

这是我第一次使用PySpark(Spark 2),我试图为Logit模型创建一个玩具数据框。我已经成功运行了教程,现在想把自己的数据传递进去。 我尝试了以下代码:%pyspark import numpy as np from pyspark.ml.linalg import Vectors...

17得票2回答
PySpark中的KMeans聚类

我有一个名为'mydataframe'的Spark数据帧,其中包含许多列。我正在尝试仅对两列进行kmeans聚类:纬度和经度(使用它们作为简单值)。我想基于这两个列提取7个簇,然后将集群分配附加到我的原始数据框中。我尝试过:from numpy import array from math i...

17得票5回答
PySpark和MLLib:随机森林特征重要性

我正在尝试使用PySpark提取已训练的随机森林对象的特征重要性。然而,在文档中我没有看到任何实现此操作的例子,而且RandomForestModel也没有相应的方法。 我该如何从 PySpark 中的RandomForestModel回归器或分类器中提取特征重要性呢?下面是文档中提供的示例...

17得票3回答
如何在Spark dataframe中用新列覆盖整个现有列?

我想用一个新的二进制标志列覆盖Spark列。我尝试直接覆盖列id2,但为什么它不像Pandas中的就地操作一样运行?如何在不使用withcolumn()创建新列和drop()删除旧列的情况下完成此操作?我知道Spark DataFrame是不可变的,这是原因还是有其他方法可以在不使用withc...

17得票2回答
org.apache.spark.ml.classification和org.apache.spark.mllib.classification的区别

我正在编写一个Spark应用程序并希望在MLlib中使用算法。在API文档中,我发现了同一算法的两个不同类别。例如,org.apache.spark.ml.classification中有一个LogisticRegression,而org.apache.spark.mllib.classifi...

17得票1回答
Apache Spark MLLib:如何为字符串特征构建标记点?

我正在尝试使用Spark的MLLib构建一个朴素贝叶斯分类器,其输入为一组文档。 我想将一些内容作为特征(即作者,显式标签,隐含关键字,类别),但是查看文档后,发现LabeledPoint仅包含双精度浮点数,即它看起来像LabeledPoint[Double,List [Pair [Doubl...

17得票3回答
Spark Word2vec向量数学

我在 Spark 网站上查看了 Word2Vec 的 示例: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model =...

17得票1回答
如何从Spark ML Lib中的TF Vector RDD获取单词细节?

我使用Spark中的HashingTF创建了术语频率。对于每个单词,我使用tf.transform得到了其词频。 但结果以以下格式显示。[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ......

16得票4回答
在Spark\PySpark中,保存和加载模型的正确方式是什么?

我正在使用PySpark和MLlib与Spark 1.3.0一起工作,需要保存并加载模型。 我使用的代码类似于这样(摘自官方文档)from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating da...