77得票3回答
如何将数组(即列表)列转换为向量

问题简述!考虑以下代码片段(假设spark已经设置为某个SparkSession):from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), ...

70得票4回答
如何使用PySpark将向量拆分为列

背景:我有一个包含两列:单词和向量的DataFrame。其中"vector"列的数据类型为VectorUDT。 示例:word | vector assert | [435,323,324,212...] 我希望你能将其翻译成中文:word | v1 | v2 | v3 |...

53得票2回答
Spark ML和MLLIB包有什么区别?

我注意到SparkML中有两个LinearRegressionModel类,一个在ML包(spark.ml)中,另一个在MLLib(spark.mllib)包中。 这两个类的实现方式有很大的不同,例如来自MLLib的类实现了Serializable接口,而另一个则没有。 顺便说一下,对于Ran...

49得票5回答
如何使用spark-ml处理分类特征?

我如何使用 spark-ml而不是spark-mllib来处理分类数据? RandomForestClassifier、LogisticRegression等分类器似乎都有一个featuresCol参数,用于指定包含特征的列名,以及一个labelCol参数,用于指定包含标签类别的列名。 显...

39得票3回答
列名中带有点号的Spark

我正在尝试从一个DataFrame中获取列,并将其转换为RDD [Vector]。问题在于,我有一些列的名称中带有“点号”,如下面的数据集:"col0.1","col1.2","col2.3","col3.4" 1,2,3,4 10,12,15,3 1,12,10,5 这是我正在做的事情:va...

38得票8回答
如何从PySpark中的spark.ml中提取模型超参数?

我正在尝试使用 PySpark 文档中的交叉验证代码,并尝试让 PySpark 告诉我选择了哪个模型:from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import Binar...

36得票6回答
Pyspark:NameError:名称“spark”未定义。

我正在从官方文档网站复制pyspark.ml示例: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer data = [(Vectors.dense([0.0, 0.0])...

35得票1回答
在Spark DataFrame中访问向量元素(逻辑回归概率向量)

我在PySpark(ML包)中训练了一个LogisticRegression模型,并且预测结果是一个PySpark DataFrame(cv_predictions)(参见[1])。probability列(参见[2])是一个vector类型(参见[3])。 [1] type(cv_pred...

35得票1回答
在PySpark ML中创建自定义转换器

我初次接触Spark SQL DataFrames和在其上进行机器学习(PySpark)。如何创建一个自定义的分词器,例如去除停用词并使用来自nltk的某些库?我能扩展默认的分词器吗?

35得票11回答
从Spark DataFrame中删除嵌套列

我有一个带有模式的DataFrameroot |-- label: string (nullable = true) |-- features: struct (nullable = true) | |-- feat1: string (nullable = true) | ...