79得票5回答
fastparquet和pyarrow的比较?

我进行了一些搜索,但没有找到完整的fastparquet和pyarrow比较的资料。 我找到了这篇博客文章(一个速度的基本比较)。 还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena(顺便问一下,现在还是这样吗?) 何时/为什么会使用其中之一...

64得票5回答
如何使用Python中的pyarrow从S3读取分区parquet文件

我正在寻找使用Python从S3中的多个分区目录读取数据的方法。data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquetdata_folder/serial_number=2/cur_date=27...

28得票3回答
快速压缩格式中不支持使用'SNAPPY'解压。

我试图使用fastparquet打开一个文件,但是出现了错误:RuntimeError: Decompression 'SNAPPY' not available. Options: ['GZIP', 'UNCOMPRESSED'] 我已经安装了以下内容并重新启动了解释器:python ...

24得票4回答
pyarrow.lib.ArrowInvalid: ('无法将类型为Y的X进行转换:在推断Arrow数据类型时未识别Python值类型')

使用pyarrow将包含Player对象的pandas.DataFrame转换为pyarrow.Table的代码如下:import pandas as pd import pyarrow as pa class Player: def __init__(self, name, age...

20得票1回答
有没有Python库支持将结构数组写入Parquet文件?

我想将一些列字符串数组或结构体数组(通常是键值对)的数据写入Parquet文件,以供在AWS Athena中使用。 在找到两个支持写入Parquet文件的Python库(Arrow和fastparquet)之后,我花了一段时间尝试实现结构体数组。 在写入Parquet文件的问题上,最佳答案...

17得票1回答
将一个大的dask dataframe保存为parquet格式是否可行?

我有一个数据框,由100,000+行组成,每行有100,000列,共计10,000,000,000个浮点值。 之前我已经成功将它们读入一个 csv(以制表符分隔)文件中,并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录,如下所示: huge...

13得票6回答
Pandas 数据框的 datetime64[ns] 类型在 Hive/Athena 中无法使用。

我正在开发一个Python应用程序,它可以将CSV文件转换为Hive / Athena兼容的Parquet格式,并使用fastparquet和pandas库执行此操作。 CSV文件中有时间戳值,例如2018-12-21 23:45:00,需要在Parquet文件中写入timestamp类型。以...

9得票2回答
以Python中高效使用内存的方式从流数据创建 Parquet 文件

似乎在Python中创建Parquet文件的最常见方法是首先创建一个Pandas数据框架,然后使用pyarrow将表格写入parquet。我担心这可能会在内存使用方面过度负担,因为它需要至少在内存中存储一个完整的数据集以便创建Pandas数据框架。 我想知道是否由于列压缩要求而需要将整个数据...

9得票3回答
如何在没有足够内存的情况下使用 Pandas 打开大型 Parquet 文件

我正在尝试使用Pandas中的read_parquet函数将一个相当大的Parquet文件(大约30百万行,大小为2 GB)读入我的Python 3 Jupyter笔记本中。我已经安装了pyarrow和fastparquet库,它们是read_parquet函数用于parquet文件的引擎。可...

9得票2回答
无法读取Parquet文件

我现在正在为此烦恼。 我对parquet文件不熟悉,使用它时遇到了很多问题。 每次尝试从parquet文件创建df时,都会抛出OSError: Passed non-file path: \datasets\proj\train\train.parquet错误。 我尝试过以下代码:pq.r...