使用Python读取Parquet文件,无需使用Pandas

6

目前我正在使用以下代码在Python 3.5,Windows上读取一个parquet文件。

import pandas as pd

parquetfilename = 'File1.parquet'
parquetFile = pd.read_parquet(parquetfilename, columns=['column1', 'column2'])  

然而,我希望不使用pandas来完成这个任务。最佳的方法是什么?我在Windows上同时使用Python 2.7和3.6


https://github.com/jcrobak/parquet-python - hootnot
1
pyarrow.parquet库如何?链接 作为好奇的问题,您为什么不想使用pandas呢? - Uncle Ben Ben
@UncleBenBen pandas是一个庞大的模块,安装在AWS Lambda上很困难,因此我正在寻找一种解决方法。 - inquisitiveProgrammer
1
使用 virtualenv 来支持 2.7 和 3.6 两个版本。 - hootnot
1
@user2413548 这不是问题。 - inquisitiveProgrammer
显示剩余2条评论
1个回答

1
你可以使用 duckdb 来实现这个功能。它是一个嵌入式 RDBMS,类似于 SQLite,但考虑到 OLAP。它有一个不错的 Python API 和一个用于导入 Parquet 文件的 SQL 函数:
import duckdb

conn = duckdb.connect(":memory:") # or a file name to persist the DB

# Keep in mind this doesn't support partitioned datasets,
# so you can only read one partition at a time
conn.execute("CREATE TABLE mydata AS SELECT * FROM parquet_scan('/path/to/mydata.parquet')")

# Export a query as CSV
conn.execute("COPY (SELECT * FROM mydata WHERE col = 'val') TO 'col_val.csv' WITH (HEADER 1, DELIMITER ',')")

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接