ORC与Parquet文件格式比较

3

我读过很多博客和文章,引用了“ORC文件格式非常适合与Apache Hive一起使用,Parquet文件格式非常适合与Apache Spark一起使用”,但并没有详细的解释。

请提供一些例子来证明这个说法。


2
有很多意见和比较文章。你是否看过这个例子?https://dev59.com/ulwY5IYBdhLWcg3wpJL_ - mazaneicha
这个回答解决了你的问题吗?Parquet vs ORC vs ORC with Snappy - thebluephantom
1个回答

8

Hive有一个向量化的ORC阅读器,但没有向量化的parquet阅读器,而Spark有一个向量化的parquet阅读器,但没有向量化的ORC阅读器。Spark在parquet方面表现最佳,而Hive在ORC方面表现最佳。

向量化意味着行被批处理解码,极大地提高了内存局部性和缓存利用率。

[更新]

Spark 2.3已经引入了本地向量化的ORC阅读器,使得读取ORC文件时有所改进,并加入了本地parquet阅读器。


1
自从Spark 2.3版本以来,Spark支持矢量化ORC读取器。 - Andrew White

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接