我在处理一个包含两列mvv和count的数据框。
+---+-----+
|mvv|count|
+---+-----+
| 1 | 5 |
| 2 | 9 |
| 3 | 3 |
| 4 | 1 |
我希望获得两个列表,分别包含MVV值和计数值。就像这样:
mvv = [1,2,3,4]
count = [5,9,3,1]
所以,我尝试了以下代码:第一行应返回一个Python列表中的行。我想看到第一个值:mvv_list = mvv_count_df.select('mvv').collect()
firstvalue = mvv_list[0].getInt(0)
但是在第二行代码中我会收到一个错误消息:
AttributeError: getInt
list(df.select('mvv').toPandas()['mvv'])
。Arrow已集成到PySpark,这显著加速了toPandas
。如果您使用的是Spark 2.3+,请勿使用其他方法。有关更多基准测试细节,请参见我的答案。 - Powers