我试图读写一个简单的数据集到Julia中。该数据集是从R中获取的mtcars
,其中还加入了一个随机布尔值列bt
。 使用R arrow
包将文件/文件夹结构(如下所示)写出。
文件布局如下:
arr
|-- bt=false
| `-- part-1.arrow
`-- bt=true
`-- part-0.arrow
如何在Julia中忠实地复制原始表格?
我迄今为止尝试过的方法:
1.使用Parquet.jl包。文档建议它应该自动检测布尔/字符串/日期类型的列的分区文件夹结构。当我使用read_parquet(path; kwargs)读取数据时,生成的数据结构没有bt列。我尝试将column_generator关键字参数设置为默认的Parquet.dataset_column_generator,但这并没有起作用。
2.使用Arrow.jl-我找不到一种记录的方法(除非我误解了)来直接读入分区数据结构。
R不会生成附加的元数据文件来存储模式,但我了解到这是可选的,不是arrow规范的一部分?