我使用Spark中的HashingTF创建了术语频率。对于每个单词,我使用tf.transform得到了其词频。 但结果以以下格式显示。[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ......
Spark的StringIndexer非常有用,但通常需要检索生成的索引值和原始字符串之间的对应关系,似乎应该有一种内置的方法来实现这一点。我将使用Spark文档中的这个简单示例进行说明:from pyspark.ml.feature import StringIndexer df = sq...
我在Spark 1.5.1中有一个spark.ml流水线,由一系列变压器组成,后跟一个k-means评估器。我想在拟合管道后能够访问KMeansModel.clusterCenters ,但不知道如何做到。是否有spark.ml相当于sklearn的pipeline.named_steps功能...
我正在尝试使用Zeppelin在Spark ML中构建模型。 我对这个领域不熟悉,希望得到一些帮助。我认为我需要为列设置正确的数据类型,并将第一列设置为标签。任何帮助都将不胜感激,谢谢。val training = sc.textFile("hdfs:///ford/fordTrain.csv...
我有一个DataFrame,其中有一列名为a.b。当我将a.b作为输入列名指定给StringIndexer时,会抛出AnalysisException异常,错误信息为"cannot resolve 'a.b' given input columns a.b"。我正在使用Spark 1.6.0版...
我在构建一个机器学习Pipeline时遇到了以下错误:pyspark.sql.utils.IllegalArgumentException: 'requirement failed: Column features must be of type org.apache.spark.ml.lin...
我有一个 DataFrame,它看起来像这样: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2 不同类别的数量是 ...
根据Spark MLlib Guide,Spark有两个机器学习库:spark.mllib(基于RDD)和spark.ml(基于DataFrames)。根据StackOverflow上的这个和这个问题,DataFrames比RDDs更好(也是较新的),应该尽可能使用它。 但问题在于我想使用常...
考虑这里给出的代码, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkCon...
我从VectorAssembler那里遇到了非常奇怪的行为,我想知道是否还有其他人看到了这个问题。 我的情况非常简单。我从一个CSV文件中解析数据,其中包含一些标准的Int和Double字段,我还计算了一些额外的列。我的解析函数返回如下内容: val joined = countPerCh...