得票数最多 'apache-spark-ml' 问题 - 第4页

关联标签

17得票1回答

如何从Spark ML Lib中的TF Vector RDD获取单词细节？

我使用Spark中的HashingTF创建了术语频率。对于每个单词，我使用tf.transform得到了其词频。但结果以以下格式显示。[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ......

apache-sparkapache-spark-mllibtf-idfapache-spark-ml

16得票1回答

保留索引字符串对应关系的 Spark 字符串索引器

Spark的StringIndexer非常有用，但通常需要检索生成的索引值和原始字符串之间的对应关系，似乎应该有一种内置的方法来实现这一点。我将使用Spark文档中的这个简单示例进行说明：from pyspark.ml.feature import StringIndexer df = sq...

pythonapache-sparkapache-spark-sqlpysparkapache-spark-ml

16得票1回答

在spark.ml管道中，是否可以访问评估器属性？

我在Spark 1.5.1中有一个spark.ml流水线，由一系列变压器组成，后跟一个k-means评估器。我想在拟合管道后能够访问KMeansModel.clusterCenters ，但不知道如何做到。是否有spark.ml相当于sklearn的pipeline.named_steps功能...

scalaapache-sparkpipelineapache-spark-ml

16得票1回答

字段“features”不存在。SparkML。

我正在尝试使用Zeppelin在Spark ML中构建模型。我对这个领域不熟悉，希望得到一些帮助。我认为我需要为列设置正确的数据类型，并将第一列设置为标签。任何帮助都将不胜感激，谢谢。val training = sc.textFile("hdfs:///ford/fordTrain.csv...

scalaapache-zeppelinapache-spark-ml

16得票1回答

Spark ML索引器无法解析带有点的DataFrame列名？

我有一个DataFrame，其中有一列名为a.b。当我将a.b作为输入列名指定给StringIndexer时，会抛出AnalysisException异常，错误信息为"cannot resolve 'a.b' given input columns a.b"。我正在使用Spark 1.6.0版...

javaapache-sparkapache-spark-mllibapache-spark-ml

16得票1回答

如何在PySpark数据帧中将ArrayType转换为DenseVector？

我在构建一个机器学习Pipeline时遇到了以下错误：pyspark.sql.utils.IllegalArgumentException: 'requirement failed: Column features must be of type org.apache.spark.ml.lin...

pythonapache-sparkpysparkapache-spark-mllibapache-spark-ml

16得票3回答

Spark、Scala、DataFrame：创建特征向量

我有一个 DataFrame，它看起来像这样: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2 不同类别的数量是 ...

scalaapache-sparkapache-spark-sqlapache-spark-ml

16得票1回答

为什么spark.ml没有实现任何spark.mllib算法？

根据Spark MLlib Guide，Spark有两个机器学习库：spark.mllib（基于RDD）和spark.ml（基于DataFrames）。根据StackOverflow上的这个和这个问题，DataFrames比RDDs更好（也是较新的），应该尽可能使用它。但问题在于我想使用常...

machine-learningapache-sparkpysparkapache-spark-mllibapache-spark-ml

15得票2回答

我们是否应该像在训练前并行化序列一样并行化DataFrame？

考虑这里给出的代码， https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkCon...

scalaapache-sparkpysparkapache-spark-sqlapache-spark-ml

15得票1回答

Spark ML的VectorAssembler返回奇怪的输出

我从VectorAssembler那里遇到了非常奇怪的行为，我想知道是否还有其他人看到了这个问题。我的情况非常简单。我从一个CSV文件中解析数据，其中包含一些标准的Int和Double字段，我还计算了一些额外的列。我的解析函数返回如下内容： val joined = countPerCh...

scalaapache-sparkapache-spark-mllibapache-spark-ml