PySpark -- 将行列表转换为数据帧

Question

8

我实际试图解决的问题是获取 PySpark 数据框的前/后 N 行，并将结果返回为数据框。具体来说，我想要做的是这样的：

 my_df.head(20).toPandas()

然而，因为head()返回一系列行，所以我得到了这个错误：

AttributeError: 'list' object has no attribute 'toPandas'

所以，我正在寻找一种方法，可以将PySpark数据框中的前N行 作为数据框 返回，或者将这些行列表转换为数据框。有什么想法吗？

- TuringMachin

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user6022341 · Accepted Answer

使用limit：

>>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
>>> df.limit(1).toPandas()
  _1  _2
0  a   1

使用 pd.DataFrame：

>>> pd.DataFrame(df.head(1), columns=df.columns)
  _1  _2
0  a   1