Databricks(Spark):.egg依赖项不会自动安装?

12
我有一个本地创建的 .egg 包,依赖于 boto==2.38.0. 我使用 setuptools 创建构建分发。在我的本地环境中一切正常,因为它从 PiP 正确获取了 boto。然而,在 databricks 上,当我将库附加到集群时,它不会自动获取依赖项。
我已经努力尝试了几天,试图在databricks上自动安装依赖项,我使用 setuptools; 'install_requires=['boto==2.38.0']' 是相关字段。
当我直接从 PyPidatabricks 服务器上安装 boto(因此不依赖于 install_requires 字段正常工作)并调用我自己的 .egg 时,它确实认识到 boto 是一个包,但它不认识任何它的模块(因为它没有在我的 .egg 命名空间中导入???)。所以我无法让我的 .egg 工作。如果这个问题继续存在且没有任何解决方案,我认为这对当前的 databricks 用户来说是一个非常大的问题。当然应该有解决方案...
谢谢!

Loek,你确定找到了解决方案吗? - ramhiser
@JohnA.Ramey 我没有,但我也不再处理这个问题了。我记得 Databricks 团队告诉我他们正在解决这个问题。我猜你现在也遇到了同样的问题?很抱歉听到这个消息。如果你自己找到了解决方案,请告诉我 :) - Loek Janssen
这个问题有任何进展了吗? - Pengfei.X
1个回答

1
你的应用程序依赖项如果不统一语言支持并且存在差异,则通常无法正常工作。Databrick文档 解释了这一点。

如果库同时支持Python 2和3,Databricks将安装正确的版本。如果库不支持Python 3,则库附加将失败并显示错误信息。

在这种情况下,当您将库附加到集群时,它将不会自动获取依赖项。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接