如何在Linux中查看Hive ORC文件的内容

22

是否有一种方法可以查看Hive 0.11及以上版本使用的orc文件内容。我通常会查看gz文件并解压缩它们以查看其内容。 例如:cat part-0000.gz | pigz -d | more 注:pigz是一个并行化的gz程序。

我想知道是否有类似于这样的orc文件操作方式。


尝试在其上运行 pigz -dz - Mark Adler
pigz说输入未压缩。 - viper
文档中提到:“编解码器可以是Snappy、Zlib或无编解码器。” 如果它是zlib,并且您有正确的起点,那么 pigz -dz 可以处理它。它也可能是Snappy,或者您可能没有正确的起点。 - Mark Adler
3个回答

29

现在还有适用于Linux和MacOS的本机可执行文件,可以将orc文件的内容以JSON格式打印出来。请访问ORC项目(http://orc.apache.org/)并构建C++工具。

% orc-contents examples/TestOrcFile.test1.orc

还有一个本地元数据工具:

% orc-metadata ../examples/TestOrcFile.test1.orc

ORC 项目还有一个独立的 uber jar,可以通过 Java 实现相同的功能。

% java -jar orc-tools-1.2.3-uber.jar data myfile.orc

27

2020年更新的答案:

根据@Owen的回答,ORC已经成长并成为自己的Apache项目,变得更加成熟ORC采用者的完整列表显示了它现在在许多种类的大数据技术中得到了广泛支持。

感谢@Owen和ORC Apache项目团队,ORC的项目网站上有一个完全维护的最新文档,介绍如何使用ORC文件在Linux本地文件系统上使用JavaC ++独立工具。这承载了原始Hive + ORC Apache wiki 页面的火炬。

原始答案日期:2014年5月30日16:27

The ORC file dump utility comes with hive (0.11 or higher):

hive --orcfiledump <hdfs-location-of-orc-file>

Source link


2
不幸的是,“-d”参数实际上输出数据(而不仅仅是元数据)只有在Hive 0.15及以上版本才可用。 - Mass Dosage
1
值得一提的是,原始的Hive+ORC Wiki页面现在包含了一个表格,列出了每个引入的Hive版本的新功能。https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC#LanguageManualORC-ORCFileDumpUtility - geekyj

2
它也可以通过在Linux上运行的桌面应用程序查看ORC文件的内容。
有一个桌面应用程序可以查看 Parquet以及其他二进制格式数据,如 ORC AVRO。这是一个纯Java应用程序,因此可以在Linux、Mac和Windows上运行。请查看 Bigdata File Viewer获取详细信息。
它支持复杂数据类型,如数组、映射、结构等。

enter image description here


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接