我正在尝试将一个包含以下结构的大型压缩数据集加载到Python中:
- year.zip
- year
- month
- 许多csv文件
- month
- year
zf = ZipFile(year.zip)
for file in zf.namelist:
try:
pd.read_csv(zf.open(file))
代码运行时间很长,我正在寻找优化方法。我找到了使用Dask库的选项。但是,我无法弄清楚如何最好地实现它,以便一次命令就可以访问至少一个月的CSV文件。有什么建议吗?同时也欢迎其他优化方法。