在Julia中将自定义元数据写入Parquet文件

3

我目前使用Parquet.jl将Julia数据框的输出存储在Parquet文件中。我还希望将一些模拟参数(例如(byte-)strings列表)保存到同一个输出文件中。

最好每个列所包含的参数都不同,因为每个列是代码不同初始条件的结果。然而,我也可以使用全局参数列表,然后通过索引来解开它们。

我已经找到了Python的解决方案,使用了pyarrow

https://mungingdata.com/pyarrow/arbitrary-metadata-parquet-table/.

你知道如何在Julia中实现吗?

1个回答

1

它还没有完成,也没有注册,但我重写的Julia Parquet包Parquet2.jl支持自定义文件元数据和单独列元数据(在Parquet2.writefile中的关键字参数metadatacolumn_metadata)。

我还没有为写作文档做准备,但如果你想尝试一下的话,可以试试。我预计会在接下来的几周内完成这个包,并注册它。我还没有为写作设置单元测试,所以如果你尝试并遇到问题,请提出问题。

很可能也值得一提的是,我推荐使用parquet的主要用例是如果你由于兼容性原因必须使用parquet。大多数情况下,Julia用户使用Arrow.jl可能比parquet更好,因为对于大多数用例,该格式具有许多优点,请参见我的FAQ答案。当然,我编写这个软件包的原因是因为parquet可以说是“大数据世界”中唯一普遍存在的二进制格式,因此迫切需要一个强大的写入器。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接