我读过很多博客和文章,引用了“ORC文件格式非常适合与Apache Hive一起使用,Parquet文件格式非常适合与Apache Spark一起使用”,但并没有详细的解释。
请提供一些例子来证明这个说法。
我读过很多博客和文章,引用了“ORC文件格式非常适合与Apache Hive一起使用,Parquet文件格式非常适合与Apache Spark一起使用”,但并没有详细的解释。
请提供一些例子来证明这个说法。
Hive有一个向量化的ORC阅读器,但没有向量化的parquet阅读器,而Spark有一个向量化的parquet阅读器,但没有向量化的ORC阅读器。Spark在parquet方面表现最佳,而Hive在ORC方面表现最佳。
向量化意味着行被批处理解码,极大地提高了内存局部性和缓存利用率。
[更新]
Spark 2.3已经引入了本地向量化的ORC阅读器,使得读取ORC文件时有所改进,并加入了本地parquet阅读器。