得票数最多 'fastparquet' 问题 - 第2页

关联标签

9得票1回答

我正在尝试创建一段AWS Lambda代码，将CSV转换为Parquet格式。我可以使用Pyarrow完成此操作，但由于其太大（未压缩的大小约为200 MB），因此我无法在Lambda的部署包中使用它。我正试图使用BytesIO库将Parquet文件直接写入S3桶。以下是我的Lambda函...

8得票2回答

我将尝试使用pandas的to_parquet函数保存一个非常大的数据集，但是当超过一定限制时，无论是使用'pyarrow'还是'fastparquet'都会失败。我使用以下代码复现了出现的错误，并且很乐意听取如何解决这个问题的想法：使用Pyarrow： low = 3 high = 8...

8得票1回答

我已经在我的 EC2 服务器上安装了以下模块，该服务器已经安装了 Python (3.6) 和 Anaconda： snappy pyarrow s3fs fastparquet 除了 fastparquet 之外，所有其他模块都可以成功导入。当我尝试导入 fastparquet 时，...

8得票1回答

我正在尝试使用dask的read_parquet方法和filters关键字读取parquet文件。然而，有时它不会按照给定的条件进行过滤。例如：创建并保存一个包含dates列的数据帧。 import pandas as pd import numpy as np import dask....

7得票1回答

我有一个parquet格式的数据文件，文件大小超过内存限制（6 GB）。我正在寻找一种使用Python 3.6读取和处理该文件并将其下采样到dataframe格式的流式方法。最终，我希望能够使用dataframe格式进行操作。如果不使用Spark框架，我这样做是否错误？我尝试使用pya...