最新 'fastparquet' 问题

关联标签

9得票2回答

无法读取Parquet文件

我现在正在为此烦恼。我对parquet文件不熟悉，使用它时遇到了很多问题。每次尝试从parquet文件创建df时，都会抛出OSError: Passed non-file path: \datasets\proj\train\train.parquet错误。我尝试过以下代码：pq.r...

pythonpandasparquetpyarrowfastparquet

24得票4回答

pyarrow.lib.ArrowInvalid: ('无法将类型为Y的X进行转换：在推断Arrow数据类型时未识别Python值类型')

使用pyarrow将包含Player对象的pandas.DataFrame转换为pyarrow.Table的代码如下：import pandas as pd import pyarrow as pa class Player: def __init__(self, name, age...

pythonpandasparquetpyarrowfastparquet

79得票5回答

fastparquet和pyarrow的比较？

我进行了一些搜索，但没有找到完整的fastparquet和pyarrow比较的资料。我找到了这篇博客文章（一个速度的基本比较）。还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena（顺便问一下，现在还是这样吗？）何时/为什么会使用其中之一...

pythonparquetdaskpyarrowfastparquet

9得票2回答

以Python中高效使用内存的方式从流数据创建 Parquet 文件

似乎在Python中创建Parquet文件的最常见方法是首先创建一个Pandas数据框架，然后使用pyarrow将表格写入parquet。我担心这可能会在内存使用方面过度负担，因为它需要至少在内存中存储一个完整的数据集以便创建Pandas数据框架。我想知道是否由于列压缩要求而需要将整个数据...

pythonparquetpyarrowfastparquet

64得票5回答

如何使用Python中的pyarrow从S3读取分区parquet文件

我正在寻找使用Python从S3中的多个分区目录读取数据的方法。data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquetdata_folder/serial_number=2/cur_date=27...

pythonparquetpyarrowfastparquetpython-s3fs

9得票1回答

Fastparquet使用dataframe.to_parquet()时出现"TypeError: expected str, bytes or os.PathLike object, not _io.BytesIO"错误。

我正在尝试创建一段AWS Lambda代码，将CSV转换为Parquet格式。我可以使用Pyarrow完成此操作，但由于其太大（未压缩的大小约为200 MB），因此我无法在Lambda的部署包中使用它。我正试图使用BytesIO库将Parquet文件直接写入S3桶。以下是我的Lambda函...

pythonaws-lambdafastparquet

28得票3回答

快速压缩格式中不支持使用'SNAPPY'解压。

我试图使用fastparquet打开一个文件，但是出现了错误：RuntimeError: Decompression 'SNAPPY' not available. Options: ['GZIP', 'UNCOMPRESSED'] 我已经安装了以下内容并重新启动了解释器：python ...

python-3.xsnappyfastparquet

7得票1回答

使用Python流式处理Parquet文件并进行降采样。

我有一个parquet格式的数据文件，文件大小超过内存限制（6 GB）。我正在寻找一种使用Python 3.6读取和处理该文件并将其下采样到dataframe格式的流式方法。最终，我希望能够使用dataframe格式进行操作。如果不使用Spark框架，我这样做是否错误？我尝试使用pya...

python-3.xparquetpyarrowfastparquet

17得票1回答

将一个大的dask dataframe保存为parquet格式是否可行？

我有一个数据框，由100,000+行组成，每行有100,000列，共计10,000,000,000个浮点值。之前我已经成功将它们读入一个 csv（以制表符分隔）文件中，并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录，如下所示： huge...

pythondataframeparquetdaskfastparquet

8得票1回答

使用Dask的read_parquet方法进行过滤会产生不想要的结果

我正在尝试使用dask的read_parquet方法和filters关键字读取parquet文件。然而，有时它不会按照给定的条件进行过滤。例如：创建并保存一个包含dates列的数据帧。 import pandas as pd import numpy as np import dask....

pythondataframefilteringdaskfastparquet