我正在尝试在Hive中创建一个Parquet表。 我可以创建它,但是当我运行“analyze table mytable compute statistics;”时,我得到了以下结果:
numfiles=800, numrows=10000000, totalSize=18909876 rawDataSize=40000000
为什么这个表只有180 Mb,却由800个文件组成? 有没有办法设置文件的数量? 我尝试使用“SET parquet.block.size=134217728”,但结果仍然相同。
INPUT__FILE__NAME
数量?以及表所使用的文件夹中HDFS文件的数量(由于空数据文件可能会更高)? - Samson Scharfrichter