我有一个Hadoop集群,正在使用Numpy、SciPy和Pandas进行数据分析。我想能够使用“--file”参数将我的Hadoop作业作为zip/tar文件提交。该zip文件应包含我的Python程序执行所需的所有内容,以便无论在集群中的哪个节点上执行脚本,都不会在运行时遇到ImportError。
由于公司政策的原因,在每个节点上安装这些库并不是完全可行的,特别是对于探索性/敏捷开发而言。但我已经安装了pip和virtualenv,可以根据需要创建沙盒。
我已经查看了zipimport和python packaging,但似乎没有满足我的需求,或者我很难使用这些工具。
有人成功做到了吗?我似乎找不到任何在线成功案例。
谢谢!
由于公司政策的原因,在每个节点上安装这些库并不是完全可行的,特别是对于探索性/敏捷开发而言。但我已经安装了pip和virtualenv,可以根据需要创建沙盒。
我已经查看了zipimport和python packaging,但似乎没有满足我的需求,或者我很难使用这些工具。
有人成功做到了吗?我似乎找不到任何在线成功案例。
谢谢!