我正在处理一组包含近60列(文本/地址/数字)的数据。在使用Pandas处理数据后,我需要将其导出为
以下是我生成输出的方法:
我注意到的是,生成
我需要能够在几秒钟内生成大约300K到600K条记录的
我用于生成这些文件的硬件具有16个CPU核心和64GB内存。
xlsx
格式。以下是我生成输出的方法:
with pd.ExcelWriter("output.xlsx", engine='xlsxwriter') as writer:
df.to_excel(writer, sheet_name="sheet", index=False)
我也尝试过这种方法:
df.to_excel('output.xlsx', index=False, engine='xlsxwriter')
我注意到的是,生成
xlsx
格式比如 csv
格式要慢得多。并且随着记录数的增长,生成 xlsx
文件所需时间显著增加。
这是.to_excel
的正常预期行为吗?还是存在问题?有没有办法进行调试并解决这个问题?
我需要能够在几秒钟内生成大约300K到600K条记录的
xlsx
文件,但是正如您所看到的,我需要花费大约6分钟来生成大约500K条记录的Excel文件。我用于生成这些文件的硬件具有16个CPU核心和64GB内存。