Parquet与RecordIO比较

4
最近我在学习AWS,如果这个问题太基础,请见谅。我阅读了许多关于Parquet相对于CSV的优点和缺点的开放和关闭式问题(已回答:什么是parquet格式相对于其他格式的优缺点?)以及RecordIO-protobuf在文件与管道模式方面的比较(例如未回答:RecordIO有什么吸引力)。但是,我没有看到过RecordIO-protobuf和Parquet之间的比较。
根据我的研究,以下是我能够收集到的信息:
- Parquet是一种列格式,而RecordIO-protobuf用于序列化。 - 并非所有SageMaker算法都支持Parquet。大多数SageMaker算法在RecordIO-protobuf格式下表现最佳。(https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-training.html
除了以上两个区别之外,使用Parquet与recordIO格式的优缺点是什么?此外,搜索“Parquet vs. RecordIO”没有谷歌结果,这让我觉得我在比较苹果和橙子。
感谢您的想法。

4
Parquet是用于数据分析最常用的格式。它是一种非常高效的数据存储方式,适用于AWS上的Athena、Glue和EMR等服务。而RecordIO则更适合二进制流数据,如图像。在AWS上进行数据分析时不能使用RecordIO。 - Marcin
1个回答

1

Parquet由于文件大小小且允许您仅扫描感兴趣的列,非常适合用于分析数据。

RecordIO格式通常用于训练机器学习模型,以便在需要时仅呈现模型所需的数据。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接