我正在尝试使用Pandas中的
是否有一个好方法在不发生这种情况的情况下将Parquet文件的某部分写入内存?我知道Parquet文件是按列排列的,可能无法仅将部分记录存储到内存中,但如果有解决方法或者查看我在读取时是否做错了什么,我希望能够拆分它。
我的计算机配置相对较弱,只有6 GB的内存和i3处理器。处理器主频为2.2 GHz,支持Turbo Boost。
read_parquet
函数将一个相当大的Parquet文件(大约30百万行,大小为2 GB)读入我的Python 3 Jupyter笔记本中。我已经安装了pyarrow
和fastparquet
库,它们是read_parquet
函数用于parquet文件的引擎。可惜,在读取时,我的计算机会冻结,最终出现内存不足的错误(我不想重复运行代码,因为这会导致另一次冻结,我不知道确切的错误消息)。是否有一个好方法在不发生这种情况的情况下将Parquet文件的某部分写入内存?我知道Parquet文件是按列排列的,可能无法仅将部分记录存储到内存中,但如果有解决方法或者查看我在读取时是否做错了什么,我希望能够拆分它。
我的计算机配置相对较弱,只有6 GB的内存和i3处理器。处理器主频为2.2 GHz,支持Turbo Boost。