得票数最多 'apache-spark-mllib' 问题 - 第6页

关联标签

15得票1回答

Spark ML的VectorAssembler返回奇怪的输出

我从VectorAssembler那里遇到了非常奇怪的行为，我想知道是否还有其他人看到了这个问题。我的情况非常简单。我从一个CSV文件中解析数据，其中包含一些标准的Int和Double字段，我还计算了一些额外的列。我的解析函数返回如下内容： val joined = countPerCh...

scalaapache-sparkapache-spark-mllibapache-spark-ml

15得票3回答

如何将ML Pipeline中的模型保存到S3或HDFS？

我正在尝试保存由ML Pipeline生成的数千个模型。如这里的答案所示，可以按以下方式保存模型：import java.io._ def saveModel(name: String, model: PipelineModel) = { val oos = new ObjectOutp...

javascalaapache-sparkapache-spark-mllibapache-spark-ml

14得票1回答

Spark MLlib LDA，如何推断一个新的未见过文档的主题分布？

我希望运用Spark MLlib中的LDA主题建模技术。我已经查看了这里的代码和说明，但是我无法找到如何使用模型找出新未见过的文档的主题分布。

apache-sparkldaapache-spark-mllibtopic-modeling

14得票2回答

两个RDD[mllib.linalg.Vector]的相加

我需要将存储在两个文件中的两个矩阵相加。 latest1.txt 和 latest2.txt 的内容如下: 1 2 3 4 5 6 7 8 9 我按以下方式读取这些文件:scala> val rows = sc.textFile(“latest1.txt”).map { lin...

scalaapache-sparkapache-spark-mllib

14得票1回答

如何将Spark DataFrame转换为RDD MLlib LabeledPoints？

我尝试对我的数据应用PCA，然后对转换后的数据应用RandomForest。但是，PCA.transform(data) 给了我一个 DataFrame，而我需要一个mllib LabeledPoints来提供给我的RandomForest。我该怎么做？我的代码： import org....

scalaapache-sparkrddpcaapache-spark-mllib

14得票1回答

用Sparklyr进行矩阵数学运算

希望将一些R代码转换为Sparklyr，例如lmtest :: coeftest()和sandwich :: sandwich()等函数。尝试使用Sparklyr扩展程序入门，但对Spark API非常陌生且遇到了问题 :( 运行Spark 2.1.1和sparklyr 0.5.5-900...

rapache-sparkapache-spark-mllibsparklyr

14得票1回答

Spark MLlib - trainImplicit 警告

在使用 trainImplicit 时，我一直看到这些警告：WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 ...

pythonapache-sparkpysparkapache-spark-mllib

14得票5回答

如何将Apache Spark集成到Spring MVC Web应用程序中，以实现交互式用户会话

我正在尝试使用Apache Spark MLlib构建电影推荐系统。我已经用Java编写了推荐器代码，使用spark-submit命令运行正常。我的运行命令如下： bin/spark-submit --jars /opt/poc/spark-1.3.1-bin-hadoop2.6/mll...

javaspring-mvcapache-sparkmachine-learningapache-spark-mllib

14得票1回答

在Python中从Spark DataFrame创建带标签的点（labeledPoints）

我应该使用Python中的哪个.map()函数来从Spark数据框创建一组labeledPoints？如果标签/结果不是第一列，但我可以引用它的列名'status'，该怎么写？我使用以下代码创建Python数据框： def parsePoint(line): listmp = l...

pythonpandasapache-sparkapache-spark-mllibapache-spark-ml

13得票4回答

如果用户ID不是连续的整数而是字符串，如何使用mllib.recommendation？

我想使用Spark的mllib.recommendation库来构建一个原型推荐系统。但是，我拥有的用户数据格式如下：AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765 .... 如果我想使用mllib.recommendation库，根据R...

apache-sparkrecommendation-engineapache-spark-mllib