无法读取Parquet文件

9

我现在正在为此烦恼。 我对parquet文件不熟悉,使用它时遇到了很多问题。

每次尝试从parquet文件创建df时,都会抛出OSError: Passed non-file path: \datasets\proj\train\train.parquet错误。

我尝试过以下代码:pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas()od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')

我还更改了数据集所在驱动器的驱动器号码,但结果仍然相同!

所有引擎都是一样的。

请帮忙解决!


你使用的是哪个操作系统? - Josh Friedlander
Windows 2019服务器。 - Anonymous Person
1
你尝试过使用 import osos.path.exists(x) 吗?其中 x 是你要加载的文件名。 - Josh Friedlander
没有,我还没试过。让我试试看。我现在不在电脑旁边,所以要等一段时间才能做到。 - Anonymous Person
2个回答

10
这可能是Arrow文件路径处理的问题。相反,您可以传递已经打开的文件:
import pandas as pd

with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
    df = pd.read_parquet(f, engine='pyarrow')

1
确实。我也遇到了同样的问题,你的解决方案解决了它。 - Julius

1

尝试使用fastparquet作为引擎,对我有效。

engine = "fastparquet"

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接