ORC与Parquet文件格式比较

Question

3

我读过很多博客和文章，引用了“ORC文件格式非常适合与Apache Hive一起使用，Parquet文件格式非常适合与Apache Spark一起使用”，但并没有详细的解释。

请提供一些例子来证明这个说法。

- SNS

2

有很多意见和比较文章。你是否看过这个例子？https://dev59.com/ulwY5IYBdhLWcg3wpJL_ - mazaneicha

这个回答解决了你的问题吗？Parquet vs ORC vs ORC with Snappy - thebluephantom

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Shrey Jakhmola · Accepted Answer

Hive有一个向量化的ORC阅读器，但没有向量化的parquet阅读器，而Spark有一个向量化的parquet阅读器，但没有向量化的ORC阅读器。Spark在parquet方面表现最佳，而Hive在ORC方面表现最佳。

向量化意味着行被批处理解码，极大地提高了内存局部性和缓存利用率。

[更新]

Spark 2.3已经引入了本地向量化的ORC阅读器，使得读取ORC文件时有所改进，并加入了本地parquet阅读器。