我正在尝试在我们的数据分析环境中解压一个大约5G(内容约为35)的.tar.gz文件。我已经尝试过以下方法进行解压:
tar = tarfile.open(blob_storage_location', 'r:gz')
tar.extractall()
tar.close()
我们还将它复制到我们的Databricks环境中并进行了尝试。
同时也进行了以下尝试:
%sh
tar xvzf $(find /dbfs/tmp/ -name '*.tar.gz' -print ) -C /dbfs/tmp/
并且:
shutil.unpack_archive(path, path, gz)
它们都开始运作但是一直卡住。只有当我使用我们最大的默认集群时它才能正常运作,但我感觉它应该也可以在一个更小的集群上运行(因为它可以在我的笔记本上运行)。
不同的集群:
- 集群 1
- 工作节点类型:
- 14.0 GB内存,4个内核,0.75 DBU Standard_DS3_v2
- 最少工作节点 2 最多工作节点 8
- 工作节点类型:
- 集群 2
- 工作节点类型:
- 28.0 GB内存,4个内核,1 DBU Standard_DS3_v2
- 工作节点 8
- 工作节点类型:
如果能有任何建议让它在更小的集群上运行将不胜感激。
编辑:我又找到了这个问题并找到了答案。您可以创建一个仅带有单个节点的自定义集群,然后它就可以正常工作了。