在R和Python(使用pyarrow)中保存parquet文件时,会保存一个arrow模式字符串到元数据中。
如何读取元数据?它是否为Flatbuffer编码数据?架构的定义在哪里?它没有列在Arrow文档网站上。
元数据是一个键值对,格式如下:
key: "ARROW:schema"
value: "/////5AAAAAQAAAAAAAKAAwABgAFAAgACgAAAAABAwAEAAAAyP///wQAAAABAAAAFAAAABAAGAAIAAYABwAMABAAFAAQAAAAAAABBUAAAAA4AAAAEAAAACgAAAAIAAgAAAAEAAgAAAAMAAAACAAMAAgABwA…
由于使用R语言编写的结果。
df = data.frame(a = factor(c(1, 2)))
arrow::write_parquet(df, "c:/scratch/abc.parquet")