我是一个新的Spark用户,之前我使用的是pandas。这是我的Spark数据框架:
In[75]: spDF
Out[75]: DataFrame[customer_id: string, name: string]
当我 展示
给他们看时
In[75]: spDF.show()
Out[75]:
+-----------+-----------+
|customer_id| name|
+-----------+-----------+
| 25620| MCDonnalds|
| 25620| STARBUCKS|
| 25620| nan|
| 25620| nan|
| 25620| MCDonnalds|
| 25620| nan|
| 25620| MCDonnalds|
| 25620|DUNKINDONUT|
| 25620| LOTTERIA|
| 25620| nan|
| 25620| MCDonnalds|
| 25620|DUNKINDONUT|
| 25620|DUNKINDONUT|
| 25620| nan|
| 25620| nan|
| 25620| nan|
| 25620| nan|
| 25620| LOTTERIA|
| 25620| LOTTERIA|
| 25620| STARBUCKS|
+-----------+-----------+
only showing top 20 rows
然后我尝试仅查询列
In[76]: spDF['name']
Out[76]: Column<b'name'>
但是当我展示给他们时,我遇到了以下错误。
In[79]: spDF['name'].show()
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-79-f6676d5e5ca2> in <module>()
----> 1 spDF['name'].show()
TypeError: 'Column' object is not callable
有人知道这个错误是什么吗?