我在评论区和“创建一个自定义 Transformer 在 PySpark ML”找到了相同的讨论,但没有明确的答案。也有一个未解决的 JIRA 相应:https://issues.apache.org/jira/browse/SPARK-17025。 考虑到 Pyspark ML pipel...
我正在尝试在PySpark中运行线性回归,并想创建一个包含摘要统计信息的表格,例如每个数据集列的系数、P值和t值。但是,为了训练线性回归模型,我必须使用Spark的VectorAssembler创建一个特征向量,现在对于每一行,我有一个单一的特征向量和目标列。 当我尝试访问Spark内置的回...
我有一个Python类,用于在Spark中加载和处理一些数据。在需要完成的各种任务中,我正在生成从Spark dataframe中的各列派生的虚拟变量列表。我的问题是,我不确定如何正确定义用户定义的函数来实现我所需的功能。 我目前有一个方法,可以在底层dataframe RDD上映射时解决一...
我有一个包含两列的DataFrame,ID列类型为Int,Vec列类型为Vector,即org.apache.spark.mllib.linalg.Vector。该DataFrame长这样:ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,...
我有一个名为df的数据框,其中有一个名为features的VectorUDT列。如何获取该列的一个元素,例如第一个元素? 我尝试过以下方法:from pyspark.sql.functions import udf first_elem_udf = udf(lambda row: row.v...
我正在使用 pyspark(使用 spark ml 库)和 PCA 模型来降低 Spark DataFrame 的维度,代码如下:pca = PCA(k=3, inputCol="features", outputCol="pca_features") ...
尝试在Spark中进行文档分类。我不确定HashingTF中的哈希操作是做什么用的,它是否会影响准确性?我怀疑不会,但我不知道。Spark文档称其使用“哈希技巧”... 这只是工程师使用的又一个非常糟糕/混淆的命名示例(我也有罪)。CountVectorizer还需要设置词汇表大小,但它还有另...
我想知道在pyspark中是否有一种简洁的方法,可以对具有多个数值列特征的DataFrame运行机器学习(例如KMeans)。 也就是说,如同在Iris数据集中所示:(a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setos...
我正在尝试在PySpark MLlib中构建简单的自定义Estimator。我已经在这里找到了编写自定义Transformer的方法,但是我不确定如何在Estimator上执行它。我也不明白@keyword_only的作用以及为什么需要这么多的setter和getter。Scikit-lear...
我正在对一些数据应用一些机器学习算法,如线性回归、逻辑回归和朴素贝叶斯,但我试图避免使用RDD并开始使用DataFrames,因为在pyspark下 RDDs比DataFrames慢(见图1)。 另一个我使用DataFrames的原因是因为ml库有一个非常有用的类可以调整模型,即Cros...