如何在Google Dataproc集群中安装Python包

12
在Google Dataproc集群创建后并运行期间,是否可以安装Python包?
我尝试在主节点命令行中使用“pip install xxxxxxx”,但似乎无法工作。
Google的Dataproc文档没有提到这种情况。
1个回答

10

在创建集群后通常不可能这样做。我建议使用初始化操作来完成此操作。

正如您所注意到的,默认情况下也未提供pip。因此,您需要运行easy_install pip,然后运行pip install命令。

最后,如果您想在任何自动化中使用此集群,和/或者您想要保持封闭性,我建议创建一个wheel,将其存储在GCS中,并在初始化操作中下载。您可以安装您的wheel。与直接从pip安装许多包相比,Wheels具有更快的速度。

2019 更新

请参阅此教程以配置Dataproc上的Python环境:https://cloud.google.com/dataproc/docs/tutorials/python-configuration


非常感谢,使用Jupyter Notebook时,我能够在笔记本中使用!pip install package安装软件包。 - Pablo Brenner
如果您想了解如何设置生产Pyspark作业(包括使用Makefile捆绑模块和运行作业时的部署),请参阅以下文章:https://developerzen.com/best-practices-writing-production-grade-pyspark-jobs-cb688ac4d20f。这是一篇非常棒的文章! - Daniel Messias

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接