Hive ORC压缩

4

我在hive v0.12.0中运行以下代码,期望使用不同的方法压缩三个表,因此文件的大小和内容应该不同

<b>--- Create table and compress it with ZLIB</b>
create table zzz_test_szlib
  stored as orc
  tblproperties ("orc.compress"="ZLIB")
  as
select * from uk_pers_dev.orc_dib_trans limit 100000000;

<b>--- Create table and compress it with SNAPPY</b>
create table zzz_test_ssnap
  stored as orc
  tblproperties ("orc.compress"="SNAPPY")
  as
select * from uk_pers_dev.orc_dib_trans limit 100000000;

<b>--- Create table and DO NOT compress it</b>
create table zzz_test_snone
  stored as orc
  tblproperties ("orc.compress"="NONE")
  as
select * from uk_pers_dev.orc_dib_trans limit 100000000;

当我使用describe或通过Hue查看表元数据时,我得到以下结果:
Name             Value                                            Value                                            Value
---------------- ------------------------------------------------ ------------------------------------------------ ------------------------------------------------
tableName        test_orc_zlib                                    test_orc_snappy                                  test_orc_none
location:hdfs    /user/hive/warehouse/test_orc_zlib               /user/hive/warehouse/test_orc_snappy             /user/hive/warehouse/test_orc_none
inputFormat      org.apache.hadoop.hive.ql.io.orc.OrcInputFormat  org.apache.hadoop.hive.ql.io.orc.OrcInputFormat  org.apache.hadoop.hive.ql.io.orc.OrcInputFormat
outputFormat     org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat
compressed       FALSE                                            FALSE                                            FALSE
serializationLib org.apache.hadoop.hive.ql.io.orc.OrcSerde        org.apache.hadoop.hive.ql.io.orc.OrcSerde        org.apache.hadoop.hive.ql.io.orc.OrcSerde
orc.compress     ZLIB                                             SNAPPY                                           NONE
numFiles         1                                                1                                                1
totalSize        289970088                                        289970088                                        289970088
tableType        MANAGED_TABLE                                    MANAGED_TABLE                                    MANAGED_TABLE

在元数据中显示compressed=FALSE,但我不知道如何更改它以及这将如何影响。
但是,如果我比较表的数据,它们都是二进制相同的
[~]$ hadoop fs -ls /user/hive/warehouse/test_orc_*
-rw-r--r--   3 andrey supergroup  289970088 2014-05-07 13:19 /user/hive/warehouse/test_orc_none/000000_0
-rw-r--r--   3 andrey supergroup  289970088 2014-05-07 12:34 /user/hive/warehouse/test_orc_snappy/000000_0
-rw-r--r--   3 andrey supergroup  289970088 2014-05-07 11:48 /user/hive/warehouse/test_orc_zlib/000000_0

我尝试更改/删除这些选项,但没有任何区别:

SET hive.exec.compress.intermediate=true;
SET hive.exec.compress.output=true;
SET mapred.output.compression.type=BLOCK;

我尝试使用不同的源表(以TEXTFILE形式存储),但没有任何区别。

有什么想法或建议吗?

1个回答

3
我认为这是由于0.12版本中已知的一个bug引起的。
可以查看这个Jira HIVE-6083

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接