我想为Hive表准备样例数据,该表以parquet格式存储。表格如下:
hive> CREATE TABLE exps (sn STRING, buildNum STRING, shortProdName
STRING, userIV STRING, cfs STRUCT<version : STRING, name : STRING,
objArray : ARRAY<STRUCT<id : STRING, properties : INT>> >) STORED AS PARQUET;
然后我编写了一个名为“sample.sql”的SQL文件,其中包含数百万行的SQL插入命令。
$ /opt/hive-0.13.1/bin/hive -f sample.sql
这将导致Hive启动大量的MapReduce作业并逐个执行,速度非常慢。
因此,我的问题是:是否有更好的方法来处理这个问题?