9得票2回答
无法读取Parquet文件

我现在正在为此烦恼。 我对parquet文件不熟悉,使用它时遇到了很多问题。 每次尝试从parquet文件创建df时,都会抛出OSError: Passed non-file path: \datasets\proj\train\train.parquet错误。 我尝试过以下代码:pq.r...

24得票4回答
pyarrow.lib.ArrowInvalid: ('无法将类型为Y的X进行转换:在推断Arrow数据类型时未识别Python值类型')

使用pyarrow将包含Player对象的pandas.DataFrame转换为pyarrow.Table的代码如下:import pandas as pd import pyarrow as pa class Player: def __init__(self, name, age...

79得票5回答
fastparquet和pyarrow的比较?

我进行了一些搜索,但没有找到完整的fastparquet和pyarrow比较的资料。 我找到了这篇博客文章(一个速度的基本比较)。 还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena(顺便问一下,现在还是这样吗?) 何时/为什么会使用其中之一...

9得票2回答
以Python中高效使用内存的方式从流数据创建 Parquet 文件

似乎在Python中创建Parquet文件的最常见方法是首先创建一个Pandas数据框架,然后使用pyarrow将表格写入parquet。我担心这可能会在内存使用方面过度负担,因为它需要至少在内存中存储一个完整的数据集以便创建Pandas数据框架。 我想知道是否由于列压缩要求而需要将整个数据...

64得票5回答
如何使用Python中的pyarrow从S3读取分区parquet文件

我正在寻找使用Python从S3中的多个分区目录读取数据的方法。data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquetdata_folder/serial_number=2/cur_date=27...

9得票1回答
Fastparquet使用dataframe.to_parquet()时出现"TypeError: expected str, bytes or os.PathLike object, not _io.BytesIO"错误。

我正在尝试创建一段AWS Lambda代码,将CSV转换为Parquet格式。我可以使用Pyarrow完成此操作,但由于其太大(未压缩的大小约为200 MB),因此我无法在Lambda的部署包中使用它。我正试图使用BytesIO库将Parquet文件直接写入S3桶。 以下是我的Lambda函...

28得票3回答
快速压缩格式中不支持使用'SNAPPY'解压。

我试图使用fastparquet打开一个文件,但是出现了错误:RuntimeError: Decompression 'SNAPPY' not available. Options: ['GZIP', 'UNCOMPRESSED'] 我已经安装了以下内容并重新启动了解释器:python ...

7得票1回答
使用Python流式处理Parquet文件并进行降采样。

我有一个parquet格式的数据文件,文件大小超过内存限制(6 GB)。我正在寻找一种使用Python 3.6读取和处理该文件并将其下采样到dataframe格式的流式方法。最终,我希望能够使用dataframe格式进行操作。 如果不使用Spark框架,我这样做是否错误? 我尝试使用pya...

17得票1回答
将一个大的dask dataframe保存为parquet格式是否可行?

我有一个数据框,由100,000+行组成,每行有100,000列,共计10,000,000,000个浮点值。 之前我已经成功将它们读入一个 csv(以制表符分隔)文件中,并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录,如下所示: huge...

8得票1回答
使用Dask的read_parquet方法进行过滤会产生不想要的结果

我正在尝试使用dask的read_parquet方法和filters关键字读取parquet文件。然而,有时它不会按照给定的条件进行过滤。 例如:创建并保存一个包含dates列的数据帧。 import pandas as pd import numpy as np import dask....