我有几个TB的JSON格式日志数据,我想将它们转换为Parquet格式以在分析阶段获得更好的性能。我通过编写一个使用parquet-mr和parquet-avro的mapreduce java作业来实现这一点。
唯一让我不满意的是,我的JSON日志没有固定的模式,我不知道所有字段的名称和类型。此外,即使我知道所有字段的名称和类型,我的模式也会随着时间的推移而发展,例如,未来会添加新字段。
目前,我必须为
唯一让我不满意的是,我的JSON日志没有固定的模式,我不知道所有字段的名称和类型。此外,即使我知道所有字段的名称和类型,我的模式也会随着时间的推移而发展,例如,未来会添加新字段。
目前,我必须为
AvroWriteSupport
提供一个Avro模式,而avro仅允许固定数量的字段。是否有更好的方法来存储Parquet中的任意字段,就像JSON一样?