17得票1回答
如何从Spark ML Lib中的TF Vector RDD获取单词细节?

我使用Spark中的HashingTF创建了术语频率。对于每个单词,我使用tf.transform得到了其词频。 但结果以以下格式显示。[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ......

16得票1回答
保留索引字符串对应关系的 Spark 字符串索引器

Spark的StringIndexer非常有用,但通常需要检索生成的索引值和原始字符串之间的对应关系,似乎应该有一种内置的方法来实现这一点。我将使用Spark文档中的这个简单示例进行说明:from pyspark.ml.feature import StringIndexer df = sq...

16得票1回答
在spark.ml管道中,是否可以访问评估器属性?

我在Spark 1.5.1中有一个spark.ml流水线,由一系列变压器组成,后跟一个k-means评估器。我想在拟合管道后能够访问KMeansModel.clusterCenters ,但不知道如何做到。是否有spark.ml相当于sklearn的pipeline.named_steps功能...

16得票1回答
字段“features”不存在。SparkML。

我正在尝试使用Zeppelin在Spark ML中构建模型。 我对这个领域不熟悉,希望得到一些帮助。我认为我需要为列设置正确的数据类型,并将第一列设置为标签。任何帮助都将不胜感激,谢谢。val training = sc.textFile("hdfs:///ford/fordTrain.csv...

16得票1回答
Spark ML索引器无法解析带有点的DataFrame列名?

我有一个DataFrame,其中有一列名为a.b。当我将a.b作为输入列名指定给StringIndexer时,会抛出AnalysisException异常,错误信息为"cannot resolve 'a.b' given input columns a.b"。我正在使用Spark 1.6.0版...

16得票1回答
如何在PySpark数据帧中将ArrayType转换为DenseVector?

我在构建一个机器学习Pipeline时遇到了以下错误:pyspark.sql.utils.IllegalArgumentException: 'requirement failed: Column features must be of type org.apache.spark.ml.lin...

16得票3回答
Spark、Scala、DataFrame:创建特征向量

我有一个 DataFrame,它看起来像这样: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2 不同类别的数量是 ...

16得票1回答
为什么spark.ml没有实现任何spark.mllib算法?

根据Spark MLlib Guide,Spark有两个机器学习库:spark.mllib(基于RDD)和spark.ml(基于DataFrames)。根据StackOverflow上的这个和这个问题,DataFrames比RDDs更好(也是较新的),应该尽可能使用它。 但问题在于我想使用常...

15得票2回答
我们是否应该像在训练前并行化序列一样并行化DataFrame?

考虑这里给出的代码, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkCon...

15得票1回答
Spark ML的VectorAssembler返回奇怪的输出

我从VectorAssembler那里遇到了非常奇怪的行为,我想知道是否还有其他人看到了这个问题。 我的情况非常简单。我从一个CSV文件中解析数据,其中包含一些标准的Int和Double字段,我还计算了一些额外的列。我的解析函数返回如下内容: val joined = countPerCh...