使用Python读取Parquet文件，无需使用Pandas

Question

使用Python读取Parquet文件，无需使用Pandas

6

目前我正在使用以下代码在Python 3.5，Windows上读取一个parquet文件。

import pandas as pd

parquetfilename = 'File1.parquet'
parquetFile = pd.read_parquet(parquetfilename, columns=['column1', 'column2'])

然而，我希望不使用pandas来完成这个任务。最佳的方法是什么？我在Windows上同时使用Python 2.7和3.6。

- inquisitiveProgrammer

https://github.com/jcrobak/parquet-python - hootnot

1

pyarrow.parquet库如何？链接作为好奇的问题，您为什么不想使用pandas呢？ - Uncle Ben Ben

@UncleBenBen pandas是一个庞大的模块，安装在AWS Lambda上很困难，因此我正在寻找一种解决方法。 - inquisitiveProgrammer

1

使用 virtualenv 来支持 2.7 和 3.6 两个版本。 - hootnot

1

@user2413548 这不是问题。 - inquisitiveProgrammer

显示剩余2条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Edgar Ramírez Mondragón · Accepted Answer

你可以使用 duckdb 来实现这个功能。它是一个嵌入式 RDBMS，类似于 SQLite，但考虑到 OLAP。它有一个不错的 Python API 和一个用于导入 Parquet 文件的 SQL 函数：

import duckdb

conn = duckdb.connect(":memory:") # or a file name to persist the DB

# Keep in mind this doesn't support partitioned datasets,
# so you can only read one partition at a time
conn.execute("CREATE TABLE mydata AS SELECT * FROM parquet_scan('/path/to/mydata.parquet')")

# Export a query as CSV
conn.execute("COPY (SELECT * FROM mydata WHERE col = 'val') TO 'col_val.csv' WITH (HEADER 1, DELIMITER ',')")