15得票1回答
Spark ML的VectorAssembler返回奇怪的输出

我从VectorAssembler那里遇到了非常奇怪的行为,我想知道是否还有其他人看到了这个问题。 我的情况非常简单。我从一个CSV文件中解析数据,其中包含一些标准的Int和Double字段,我还计算了一些额外的列。我的解析函数返回如下内容: val joined = countPerCh...

15得票3回答
如何将ML Pipeline中的模型保存到S3或HDFS?

我正在尝试保存由ML Pipeline生成的数千个模型。如这里的答案所示,可以按以下方式保存模型:import java.io._ def saveModel(name: String, model: PipelineModel) = { val oos = new ObjectOutp...

14得票1回答
Spark MLlib LDA,如何推断一个新的未见过文档的主题分布?

我希望运用Spark MLlib中的LDA主题建模技术。我已经查看了这里的代码和说明,但是我无法找到如何使用模型找出新未见过的文档的主题分布。

14得票2回答
两个RDD[mllib.linalg.Vector]的相加

我需要将存储在两个文件中的两个矩阵相加。 latest1.txt 和 latest2.txt 的内容如下: 1 2 3 4 5 6 7 8 9 我按以下方式读取这些文件:scala> val rows = sc.textFile(“latest1.txt”).map { lin...

14得票1回答
如何将Spark DataFrame转换为RDD MLlib LabeledPoints?

我尝试对我的数据应用PCA,然后对转换后的数据应用RandomForest。但是,PCA.transform(data) 给了我一个 DataFrame,而我需要一个mllib LabeledPoints来提供给我的RandomForest。我该怎么做?我的代码: import org....

14得票1回答
用Sparklyr进行矩阵数学运算

希望将一些R代码转换为Sparklyr,例如lmtest :: coeftest()和sandwich :: sandwich()等函数。 尝试使用Sparklyr扩展程序入门,但对Spark API非常陌生且遇到了问题 :( 运行Spark 2.1.1和sparklyr 0.5.5-900...

14得票1回答
Spark MLlib - trainImplicit 警告

在使用 trainImplicit 时,我一直看到这些警告:WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 ...

14得票5回答
如何将Apache Spark集成到Spring MVC Web应用程序中,以实现交互式用户会话

我正在尝试使用Apache Spark MLlib构建电影推荐系统。我已经用Java编写了推荐器代码,使用spark-submit命令运行正常。 我的运行命令如下: bin/spark-submit --jars /opt/poc/spark-1.3.1-bin-hadoop2.6/mll...

14得票1回答
在Python中从Spark DataFrame创建带标签的点(labeledPoints)

我应该使用Python中的哪个.map()函数来从Spark数据框创建一组labeledPoints?如果标签/结果不是第一列,但我可以引用它的列名'status',该怎么写? 我使用以下代码创建Python数据框: def parsePoint(line): listmp = l...

13得票4回答
如果用户ID不是连续的整数而是字符串,如何使用mllib.recommendation?

我想使用Spark的mllib.recommendation库来构建一个原型推荐系统。但是,我拥有的用户数据格式如下:AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765 .... 如果我想使用mllib.recommendation库,根据R...