我找不到一个开源工具或库来比较两个Parquet文件。假设我没有忽略显而易见的东西,这是由于技术原因吗?
在编写Parquet diff工具之前,程序员需要考虑什么?
我正在使用Python语言。
谢谢。
pandas
和 pyarrow
。一旦两个软件包都安装好了,您可以使用 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_parquet.html 将 Apache Parquet 文件加载到 Pandas DataFrame 中,然后在两个结果 DataFrame 上使用 Pandas 的 assert_frame_equal
进行比较。pyarrow
软件包)并将数据读入 pyarrow.Table
并检查是否相等。这种方法更好地保留了类型信息,但如果有差异,则差异不太明显。import pyarrow.parquet as pq
table1 = pq.read_table('file1.parquet')
table2 = pq.read_table('file2.parquet')
assert table1.equals(table2)