得票数最多 'apache-spark-ml' 问题

关联标签

77得票3回答

如何将数组（即列表）列转换为向量

问题简述！考虑以下代码片段（假设spark已经设置为某个SparkSession）：from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), ...

pythonapache-sparkpysparkapache-spark-sqlapache-spark-ml

70得票4回答

如何使用PySpark将向量拆分为列

背景：我有一个包含两列：单词和向量的DataFrame。其中"vector"列的数据类型为VectorUDT。示例：word | vector assert | [435,323,324,212...] 我希望你能将其翻译成中文：word | v1 | v2 | v3 |...

pythonapache-sparkpysparkapache-spark-sqlapache-spark-ml

53得票2回答

Spark ML和MLLIB包有什么区别？

我注意到SparkML中有两个LinearRegressionModel类，一个在ML包（spark.ml）中，另一个在MLLib（spark.mllib）包中。这两个类的实现方式有很大的不同，例如来自MLLib的类实现了Serializable接口，而另一个则没有。顺便说一下，对于Ran...

apache-sparkapache-spark-mllibapache-spark-ml

49得票5回答

如何使用spark-ml处理分类特征？

我如何使用 spark-ml而不是spark-mllib来处理分类数据？ RandomForestClassifier、LogisticRegression等分类器似乎都有一个featuresCol参数，用于指定包含特征的列名，以及一个labelCol参数，用于指定包含标签类别的列名。显...

apache-sparkcategorical-dataapache-spark-mlapache-spark-mllib

39得票3回答

列名中带有点号的Spark

我正在尝试从一个DataFrame中获取列，并将其转换为RDD [Vector]。问题在于，我有一些列的名称中带有“点号”，如下面的数据集："col0.1","col1.2","col2.3","col3.4" 1,2,3,4 10,12,15,3 1,12,10,5 这是我正在做的事情：va...

scalaapache-sparkapache-spark-sqlapache-spark-mllibapache-spark-ml

38得票8回答

如何从PySpark中的spark.ml中提取模型超参数？

我正在尝试使用 PySpark 文档中的交叉验证代码，并尝试让 PySpark 告诉我选择了哪个模型：from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import Binar...

pysparkmodelingcross-validationapache-spark-mllibapache-spark-ml

36得票6回答