得票数最多 'fastparquet' 问题

关联标签

79得票5回答

fastparquet和pyarrow的比较？

我进行了一些搜索，但没有找到完整的fastparquet和pyarrow比较的资料。我找到了这篇博客文章（一个速度的基本比较）。还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena（顺便问一下，现在还是这样吗？）何时/为什么会使用其中之一...

pythonparquetdaskpyarrowfastparquet

64得票5回答

如何使用Python中的pyarrow从S3读取分区parquet文件

我正在寻找使用Python从S3中的多个分区目录读取数据的方法。data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquetdata_folder/serial_number=2/cur_date=27...

pythonparquetpyarrowfastparquetpython-s3fs

28得票3回答

快速压缩格式中不支持使用'SNAPPY'解压。

我试图使用fastparquet打开一个文件，但是出现了错误：RuntimeError: Decompression 'SNAPPY' not available. Options: ['GZIP', 'UNCOMPRESSED'] 我已经安装了以下内容并重新启动了解释器：python ...

python-3.xsnappyfastparquet

24得票4回答

pyarrow.lib.ArrowInvalid: ('无法将类型为Y的X进行转换：在推断Arrow数据类型时未识别Python值类型')

使用pyarrow将包含Player对象的pandas.DataFrame转换为pyarrow.Table的代码如下：import pandas as pd import pyarrow as pa class Player: def __init__(self, name, age...

pythonpandasparquetpyarrowfastparquet

20得票1回答

有没有Python库支持将结构数组写入Parquet文件？

我想将一些列字符串数组或结构体数组（通常是键值对）的数据写入Parquet文件，以供在AWS Athena中使用。在找到两个支持写入Parquet文件的Python库（Arrow和fastparquet）之后，我花了一段时间尝试实现结构体数组。在写入Parquet文件的问题上，最佳答案...

pythonparquetpyarrowfastparquet

17得票1回答

将一个大的dask dataframe保存为parquet格式是否可行？

我有一个数据框，由100,000+行组成，每行有100,000列，共计10,000,000,000个浮点值。之前我已经成功将它们读入一个 csv（以制表符分隔）文件中，并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录，如下所示： huge...

pythondataframeparquetdaskfastparquet

13得票6回答

Pandas 数据框的 datetime64[ns] 类型在 Hive/Athena 中无法使用。

我正在开发一个Python应用程序，它可以将CSV文件转换为Hive / Athena兼容的Parquet格式，并使用fastparquet和pandas库执行此操作。 CSV文件中有时间戳值，例如2018-12-21 23:45:00，需要在Parquet文件中写入timestamp类型。以...

pythonpandashiveamazon-athenafastparquet

9得票2回答

以Python中高效使用内存的方式从流数据创建 Parquet 文件

似乎在Python中创建Parquet文件的最常见方法是首先创建一个Pandas数据框架，然后使用pyarrow将表格写入parquet。我担心这可能会在内存使用方面过度负担，因为它需要至少在内存中存储一个完整的数据集以便创建Pandas数据框架。我想知道是否由于列压缩要求而需要将整个数据...

pythonparquetpyarrowfastparquet

9得票3回答

如何在没有足够内存的情况下使用 Pandas 打开大型 Parquet 文件

我正在尝试使用Pandas中的read_parquet函数将一个相当大的Parquet文件（大约30百万行，大小为2 GB）读入我的Python 3 Jupyter笔记本中。我已经安装了pyarrow和fastparquet库，它们是read_parquet函数用于parquet文件的引擎。可...

pythonpandasparquetpyarrowfastparquet

9得票2回答

无法读取Parquet文件

我现在正在为此烦恼。我对parquet文件不熟悉，使用它时遇到了很多问题。每次尝试从parquet文件创建df时，都会抛出OSError: Passed non-file path: \datasets\proj\train\train.parquet错误。我尝试过以下代码：pq.r...

pythonpandasparquetpyarrowfastparquet