如何在没有设置像Hadoop或Spark这样的集群计算基础设施的情况下,将一个适度大小的Parquet数据集读入内存的Pandas DataFrame? 我想用一台笔记本电脑上的简单Python脚本将数据读入内存。 数据不驻留在HDFS上。 它可能位于本地文件系统或S3中。 我不想启动和配置其他服务,如Hadoop,Hive或Spark。
我认为Blaze / Odo可以实现这一点:Odo文档提到了Parquet,但示例似乎都通过外部Hive运行时进行操作。
我认为Blaze / Odo可以实现这一点:Odo文档提到了Parquet,但示例似乎都通过外部Hive运行时进行操作。
import pyarrow.parquet as pq; df = pq.read_table('dataset.parq').to_pandas()
。 - sroecker