28得票6回答
使用Python序列化自定义转换器,以便在Pyspark ML流水线中使用。

我在评论区和“创建一个自定义 Transformer 在 PySpark ML”找到了相同的讨论,但没有明确的答案。也有一个未解决的 JIRA 相应:https://issues.apache.org/jira/browse/SPARK-17025。 考虑到 Pyspark ML pipel...

28得票3回答
如何将Spark ML中VectorAssembler的输出特征映射回列名?

我正在尝试在PySpark中运行线性回归,并想创建一个包含摘要统计信息的表格,例如每个数据集列的系数、P值和t值。但是,为了训练线性回归模型,我必须使用Spark的VectorAssembler创建一个特征向量,现在对于每一行,我有一个单一的特征向量和目标列。 当我尝试访问Spark内置的回...

27得票1回答
在PySpark中对多个特征进行编码和组装

我有一个Python类,用于在Spark中加载和处理一些数据。在需要完成的各种任务中,我正在生成从Spark dataframe中的各列派生的虚拟变量列表。我的问题是,我不确定如何正确定义用户定义的函数来实现我所需的功能。 我目前有一个方法,可以在底层dataframe RDD上映射时解决一...

27得票3回答
如何定义一个自定义聚合函数来对向量列进行求和?

我有一个包含两列的DataFrame,ID列类型为Int,Vec列类型为Vector,即org.apache.spark.mllib.linalg.Vector。该DataFrame长这样:ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,...

27得票5回答
如何在Spark DataFrame中访问VectorUDT列的元素?

我有一个名为df的数据框,其中有一个名为features的VectorUDT列。如何获取该列的一个元素,例如第一个元素? 我尝试过以下方法:from pyspark.sql.functions import udf first_elem_udf = udf(lambda row: row.v...

26得票4回答
Pyspark和PCA:我如何提取此PCA的特征向量?我如何计算它们解释了多少方差?

我正在使用 pyspark(使用 spark ml 库)和 PCA 模型来降低 Spark DataFrame 的维度,代码如下:pca = PCA(k=3, inputCol="features", outputCol="pca_features") ...

25得票4回答
Spark中HashingTF和CountVectorizer有什么区别?

尝试在Spark中进行文档分类。我不确定HashingTF中的哈希操作是做什么用的,它是否会影响准确性?我怀疑不会,但我不知道。Spark文档称其使用“哈希技巧”... 这只是工程师使用的又一个非常糟糕/混淆的命名示例(我也有罪)。CountVectorizer还需要设置词汇表大小,但它还有另...

24得票1回答
在Spark ML / pyspark中以编程方式创建特征向量

我想知道在pyspark中是否有一种简洁的方法,可以对具有多个数值列特征的DataFrame运行机器学习(例如KMeans)。 也就是说,如同在Iris数据集中所示:(a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setos...

24得票2回答
如何在PySpark中创建自定义评估器

我正在尝试在PySpark MLlib中构建简单的自定义Estimator。我已经在这里找到了编写自定义Transformer的方法,但是我不确定如何在Estimator上执行它。我也不明白@keyword_only的作用以及为什么需要这么多的setter和getter。Scikit-lear...

23得票2回答
将机器学习模型保存以备将来使用。

我正在对一些数据应用一些机器学习算法,如线性回归、逻辑回归和朴素贝叶斯,但我试图避免使用RDD并开始使用DataFrames,因为在pyspark下 RDDs比DataFrames慢(见图1)。 另一个我使用DataFrames的原因是因为ml库有一个非常有用的类可以调整模型,即Cros...