我从VectorAssembler那里遇到了非常奇怪的行为,我想知道是否还有其他人看到了这个问题。 我的情况非常简单。我从一个CSV文件中解析数据,其中包含一些标准的Int和Double字段,我还计算了一些额外的列。我的解析函数返回如下内容: val joined = countPerCh...
我正在尝试保存由ML Pipeline生成的数千个模型。如这里的答案所示,可以按以下方式保存模型:import java.io._ def saveModel(name: String, model: PipelineModel) = { val oos = new ObjectOutp...
我希望运用Spark MLlib中的LDA主题建模技术。我已经查看了这里的代码和说明,但是我无法找到如何使用模型找出新未见过的文档的主题分布。
我需要将存储在两个文件中的两个矩阵相加。 latest1.txt 和 latest2.txt 的内容如下: 1 2 3 4 5 6 7 8 9 我按以下方式读取这些文件:scala> val rows = sc.textFile(“latest1.txt”).map { lin...
我尝试对我的数据应用PCA,然后对转换后的数据应用RandomForest。但是,PCA.transform(data) 给了我一个 DataFrame,而我需要一个mllib LabeledPoints来提供给我的RandomForest。我该怎么做?我的代码: import org....
希望将一些R代码转换为Sparklyr,例如lmtest :: coeftest()和sandwich :: sandwich()等函数。 尝试使用Sparklyr扩展程序入门,但对Spark API非常陌生且遇到了问题 :( 运行Spark 2.1.1和sparklyr 0.5.5-900...
在使用 trainImplicit 时,我一直看到这些警告:WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 ...
我正在尝试使用Apache Spark MLlib构建电影推荐系统。我已经用Java编写了推荐器代码,使用spark-submit命令运行正常。 我的运行命令如下: bin/spark-submit --jars /opt/poc/spark-1.3.1-bin-hadoop2.6/mll...
我应该使用Python中的哪个.map()函数来从Spark数据框创建一组labeledPoints?如果标签/结果不是第一列,但我可以引用它的列名'status',该怎么写? 我使用以下代码创建Python数据框: def parsePoint(line): listmp = l...
我想使用Spark的mllib.recommendation库来构建一个原型推荐系统。但是,我拥有的用户数据格式如下:AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765 .... 如果我想使用mllib.recommendation库,根据R...