是否有一种方法可以查看Hive 0.11及以上版本使用的orc文件内容。我通常会查看gz文件并解压缩它们以查看其内容。 例如:cat part-0000.gz | pigz -d | more 注:pigz是一个并行化的gz程序。
我想知道是否有类似于这样的orc文件操作方式。
是否有一种方法可以查看Hive 0.11及以上版本使用的orc文件内容。我通常会查看gz文件并解压缩它们以查看其内容。 例如:cat part-0000.gz | pigz -d | more 注:pigz是一个并行化的gz程序。
我想知道是否有类似于这样的orc文件操作方式。
现在还有适用于Linux和MacOS的本机可执行文件,可以将orc文件的内容以JSON格式打印出来。请访问ORC项目(http://orc.apache.org/)并构建C++工具。
% orc-contents examples/TestOrcFile.test1.orc
还有一个本地元数据工具:
% orc-metadata ../examples/TestOrcFile.test1.orc
ORC 项目还有一个独立的 uber jar,可以通过 Java 实现相同的功能。
% java -jar orc-tools-1.2.3-uber.jar data myfile.orc
2020年更新的答案:
根据@Owen的回答,ORC已经成长并成为自己的Apache项目,变得更加成熟。ORC采用者的完整列表显示了它现在在许多种类的大数据技术中得到了广泛支持。
感谢@Owen和ORC Apache项目团队,ORC的项目网站上有一个完全维护的最新文档,介绍如何使用ORC文件在Linux本地文件系统上使用Java或C ++独立工具。这承载了原始Hive + ORC Apache wiki 页面的火炬。
原始答案日期:2014年5月30日16:27
The ORC file dump utility comes with hive (0.11 or higher):
hive --orcfiledump <hdfs-location-of-orc-file>
pigz -dz
。 - Mark Adlerpigz -dz
可以处理它。它也可能是Snappy,或者您可能没有正确的起点。 - Mark Adler