为什么我在Jupyter Notebook中无法导入'pandas_udf'?

3
我在Jupyter笔记本中运行了以下代码,但是出现ImportError错误。请注意,在Jupyter中可以导入“udf”。 from pyspark.sql.functions import pandas_udf

ImportError Traceback (most recent call last) in () ----> 1 from pyspark.sql.functions import pandas_udf

ImportError: 无法导入名称“pandas_udf”

有人知道如何解决吗?非常感谢!

你使用的 Spark 版本是什么? - Steven
这是Pyspark 2.3.0版本。 - Yun
1个回答

0

看起来你只是单独地启动了 Jupyter Notebook,而不是使用以下命令在 Jupyter Notebook 中启动 PySpark:

PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

如果您的Jupyter笔记本服务器进程是从另一台机器运行的,也许您想使用此命令将其提供给服务器的所有IP地址。
(注意:如果您的服务器在公共或不受信任的网络上,则可能存在潜在的安全问题)
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook --ip=0.0.0.0 " pyspark

如果您按照那样的方式启动jupyter笔记本后问题仍然存在,我将修改我的答案。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接