Pyspark如何将RowMatrix转换为DataFrame或RDD

4

我有一个看起来像这样的正方形的PySpark RowMatrix:

>>> row_mat.numRows()
100
>>> row_mat.numCols()
100
>>> row_mat.rows.first()
SparseVector(100, {0: 0.0, 1: 0.0018, 2: 0.1562, 3: 0.0342...})

我想运行 pyspark.ml.feature.PCA,但它的 fit() 方法只接受一个 DataFrame。有没有一种方法可以将这个 RowMatrix 转换成一个 DataFrame?或者有更好的方法吗?
1个回答

6

使用:

row_mat.rows.map(lambda x: (x, )).toDF()

谢谢!你翻译得真快,而且正是我想要的。 - Nigel Ng

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接