将本地CSV文件直接加载到Hive Parquet表中，而不需要借助于临时文本文件表。

Question

将本地CSV文件直接加载到Hive Parquet表中，而不需要借助于临时文本文件表。

4

我现在正在准备将.csv文件中的数据存储到Hive中。当然，由于Parquet文件格式的良好性能，Hive表应该是Parquet格式。因此，通常的做法是创建一个格式为textfile的临时表，然后将本地CSV文件数据加载到这个临时表中，最后创建一个相同结构的Parquet表并使用SQL insert into parquet_table values (select * from textfile_table);。

但我认为这个临时textfile表并不是必要的。所以，我的问题是，有没有一种方法可以直接将这些本地的.csv文件加载到Hive Parquet格式表中，即不需要借助临时表？或者有更简单的方法来完成这个任务吗？

- wuchang

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alex Libov · Accepted Answer

如 Hive 文档中所述：

Load 命令不会对数据进行模式验证。

如果文件在 HDFS 中，它会被移动到 Hive 控制的文件系统命名空间中。

你可以使用 CREATE TABLE AS SELECT 来跳过一步来创建 parquet 表。

因此，您需要完成 3 步操作：

创建文本表定义模式
将数据加载到文本表中 (移动文件到新表中)
CREATE TABLE parquet_table AS SELECT * FROM textfile_table STORED AS PARQUET; 支持自 hive 0.13 起