使用Spark Scala的HiveContext向Hive表中插入数据

Question

使用Spark Scala的HiveContext向Hive表中插入数据

scalahadoopapache-sparkhiveapache-spark-sql

4

我可以使用HiveContext在我的Spark代码中将数据插入到Hive表中，如下所示。

   val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
   sqlContext.sql("CREATE TABLE IF NOT EXISTS e360_models.employee(id INT, name STRING, age INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'")

   sqlContext.sql("insert into table e360_models.employee select t.* from (select 1210, 'rahul', 55) t")
   sqlContext.sql("insert into table e360_models.employee select t.* from (select 1211, 'sriram pv', 35) t")
   sqlContext.sql("insert into table e360_models.employee select t.* from (select 1212, 'gowri', 59) t")

   val result = sqlContext.sql("FROM e360_models.employee SELECT id, name, age")
   result.show()

但是，这种方法会为每次插入创建一个在仓库中的独立文件，如下所示。

part-00000
part-00000_copy_1
part-00000_copy_2
part-00000_copy_3

有没有办法避免这种情况，只将新数据追加到单个文件中，或者有没有其他更好的方法从Spark向Hive插入数据？

- yAsH

你解决了这个问题吗？我做了一些研究，但没有运气！ - pedram bashiri

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mgaido · Accepted Answer

不，无法做到这一点。每次新插入都会创建一个新文件。这不是Spark的“问题”，而是您在Hive中也可以遇到的一般行为。唯一的方法是使用所有数据的UNION执行单个插入，但如果需要进行多个插入，则会有多个文件。您唯一能做的就是在Hive中启用文件合并（请参见：Hive Create Multi small files for each insert in HDFS和https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties）。