9得票1回答
Fastparquet使用dataframe.to_parquet()时出现"TypeError: expected str, bytes or os.PathLike object, not _io.BytesIO"错误。

我正在尝试创建一段AWS Lambda代码,将CSV转换为Parquet格式。我可以使用Pyarrow完成此操作,但由于其太大(未压缩的大小约为200 MB),因此我无法在Lambda的部署包中使用它。我正试图使用BytesIO库将Parquet文件直接写入S3桶。 以下是我的Lambda函...

8得票2回答
大型数据集中的pandas转储到Parquet失败

我将尝试使用pandas的to_parquet函数保存一个非常大的数据集,但是当超过一定限制时,无论是使用'pyarrow'还是'fastparquet'都会失败。我使用以下代码复现了出现的错误,并且很乐意听取如何解决这个问题的想法: 使用Pyarrow: low = 3 high = 8...

8得票1回答
导入Python中的fastparquet时出现了与snappy相关的错误。

我已经在我的 EC2 服务器上安装了以下模块,该服务器已经安装了 Python (3.6) 和 Anaconda: snappy pyarrow s3fs fastparquet 除了 fastparquet 之外,所有其他模块都可以成功导入。当我尝试导入 fastparquet 时,...

8得票1回答
使用Dask的read_parquet方法进行过滤会产生不想要的结果

我正在尝试使用dask的read_parquet方法和filters关键字读取parquet文件。然而,有时它不会按照给定的条件进行过滤。 例如:创建并保存一个包含dates列的数据帧。 import pandas as pd import numpy as np import dask....

7得票1回答
使用Python流式处理Parquet文件并进行降采样。

我有一个parquet格式的数据文件,文件大小超过内存限制(6 GB)。我正在寻找一种使用Python 3.6读取和处理该文件并将其下采样到dataframe格式的流式方法。最终,我希望能够使用dataframe格式进行操作。 如果不使用Spark框架,我这样做是否错误? 我尝试使用pya...