我已经将一堆.gz文件加载到HDFS中,当我在其上创建原始表时,统计行数时发现了奇怪的行为。与未压缩表的count(*)结果相比,从gz表中获取的结果少了大约85%。具有gz压缩文件的表记录较少。有人见过这种情况吗?
CREATE EXTERNAL TABLE IF NOT EXISTS test_gz(
col1 string, col2 string, col3 string)
ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION '/data/raw/test_gz'
;
select count(*) from test_gz; result 1,123,456
select count(*) from test; result 7,720,109
select * from test
和select * from test_gz
的结果。 - pensz