最近我在学习AWS,如果这个问题太基础,请见谅。我阅读了许多关于Parquet相对于CSV的优点和缺点的开放和关闭式问题(已回答:什么是parquet格式相对于其他格式的优缺点?)以及RecordIO-protobuf在文件与管道模式方面的比较(例如未回答:RecordIO有什么吸引力)。但是,我没有看到过RecordIO-protobuf和Parquet之间的比较。
根据我的研究,以下是我能够收集到的信息:
- Parquet是一种列格式,而RecordIO-protobuf用于序列化。 - 并非所有SageMaker算法都支持Parquet。大多数SageMaker算法在RecordIO-protobuf格式下表现最佳。(https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-training.html)
除了以上两个区别之外,使用Parquet与recordIO格式的优缺点是什么?此外,搜索“Parquet vs. RecordIO”没有谷歌结果,这让我觉得我在比较苹果和橙子。
感谢您的想法。
根据我的研究,以下是我能够收集到的信息:
- Parquet是一种列格式,而RecordIO-protobuf用于序列化。 - 并非所有SageMaker算法都支持Parquet。大多数SageMaker算法在RecordIO-protobuf格式下表现最佳。(https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-training.html)
除了以上两个区别之外,使用Parquet与recordIO格式的优缺点是什么?此外,搜索“Parquet vs. RecordIO”没有谷歌结果,这让我觉得我在比较苹果和橙子。
感谢您的想法。