我在创建DataProc自定义镜像和Pyspark时遇到了问题。我的自定义镜像基于DataProc 1.4.1-debian9,然后通过初始化脚本安装Python3以及从requirements.txt文件中安装一些软件包,接着设置Python3环境变量以强制Pyspark使用Python3。但是当我在使用这个镜像创建的集群上(为了简单起见,使用单节点标志),提交一个作业时,该作业无法找到所安装的软件包。如果我登录集群机器并运行pyspark命令,它会启动Anaconda PySpark,但是如果我用root用户登录并运行pyspark,我得到的是带有Python 3.5.3的pyspark。这非常奇怪。我不明白的是哪个用户用于创建镜像?为什么我的用户和root用户有不同的环境?我期望镜像是由root用户配置的,因此我预计所有我安装的软件包都可以从root用户处找到。提前感谢您的帮助。
conda
以及其他包:conda install conda <other-packages> -y
。 - Dagang