得票数最多 'apache-spark-ml' 问题 - 第2页

关联标签

28得票6回答

使用Python序列化自定义转换器，以便在Pyspark ML流水线中使用。

我在评论区和“创建一个自定义 Transformer 在 PySpark ML”找到了相同的讨论，但没有明确的答案。也有一个未解决的 JIRA 相应：https://issues.apache.org/jira/browse/SPARK-17025。考虑到 Pyspark ML pipel...

apache-sparkpysparkapache-spark-mllibapache-spark-ml

28得票3回答

如何将Spark ML中VectorAssembler的输出特征映射回列名？

我正在尝试在PySpark中运行线性回归，并想创建一个包含摘要统计信息的表格，例如每个数据集列的系数、P值和t值。但是，为了训练线性回归模型，我必须使用Spark的VectorAssembler创建一个特征向量，现在对于每一行，我有一个单一的特征向量和目标列。当我尝试访问Spark内置的回...

pythonapache-sparkmachine-learningpysparkapache-spark-ml

27得票1回答

在PySpark中对多个特征进行编码和组装

我有一个Python类，用于在Spark中加载和处理一些数据。在需要完成的各种任务中，我正在生成从Spark dataframe中的各列派生的虚拟变量列表。我的问题是，我不确定如何正确定义用户定义的函数来实现我所需的功能。我目前有一个方法，可以在底层dataframe RDD上映射时解决一...

pythonapache-sparkapache-spark-sqlapache-spark-mllibapache-spark-ml

27得票3回答

如何定义一个自定义聚合函数来对向量列进行求和？

我有一个包含两列的DataFrame，ID列类型为Int，Vec列类型为Vector，即org.apache.spark.mllib.linalg.Vector。该DataFrame长这样：ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,...

scalaapache-sparkapache-spark-sqlaggregate-functionsapache-spark-ml

27得票5回答

如何在Spark DataFrame中访问VectorUDT列的元素？

我有一个名为df的数据框，其中有一个名为features的VectorUDT列。如何获取该列的一个元素，例如第一个元素？我尝试过以下方法：from pyspark.sql.functions import udf first_elem_udf = udf(lambda row: row.v...

apache-sparkdataframepysparkapache-spark-sqlapache-spark-ml

26得票4回答

Pyspark和PCA：我如何提取此PCA的特征向量？我如何计算它们解释了多少方差？

我正在使用 pyspark（使用 spark ml 库）和 PCA 模型来降低 Spark DataFrame 的维度，代码如下：pca = PCA(k=3, inputCol="features", outputCol="pca_features") ...

apache-sparkapache-spark-sqlpysparkpcaapache-spark-ml

25得票4回答

Spark中HashingTF和CountVectorizer有什么区别？

尝试在Spark中进行文档分类。我不确定HashingTF中的哈希操作是做什么用的，它是否会影响准确性？我怀疑不会，但我不知道。Spark文档称其使用“哈希技巧”... 这只是工程师使用的又一个非常糟糕/混淆的命名示例（我也有罪）。CountVectorizer还需要设置词汇表大小，但它还有另...

apache-sparkapache-spark-mllibapache-spark-ml

24得票1回答

在Spark ML / pyspark中以编程方式创建特征向量

我想知道在pyspark中是否有一种简洁的方法，可以对具有多个数值列特征的DataFrame运行机器学习（例如KMeans）。也就是说，如同在Iris数据集中所示：(a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setos...

pythonapache-sparkpysparkapache-spark-ml

24得票2回答

如何在PySpark中创建自定义评估器

我正在尝试在PySpark MLlib中构建简单的自定义Estimator。我已经在这里找到了编写自定义Transformer的方法，但是我不确定如何在Estimator上执行它。我也不明白@keyword_only的作用以及为什么需要这么多的setter和getter。Scikit-lear...

pythonapache-sparkpysparkapache-spark-mllibapache-spark-ml

23得票2回答

将机器学习模型保存以备将来使用。

我正在对一些数据应用一些机器学习算法，如线性回归、逻辑回归和朴素贝叶斯，但我试图避免使用RDD并开始使用DataFrames，因为在pyspark下 RDDs比DataFrames慢（见图1）。另一个我使用DataFrames的原因是因为ml库有一个非常有用的类可以调整模型，即Cros...

apache-sparkpysparkapache-spark-mllibapache-spark-ml