Hive - 从zip文件创建表

4

我有一堆CSV文件的zip压缩包,我想从中创建Hive表。我正在尝试找出最佳方法。

  • 解压缩文件,将它们上传到HDFS。
  • 是否有一种方法可以将文件复制到HDFS,然后解压缩?
  • 或者是否有其他更好/推荐的方法?
1个回答

3

通常将CSV文件转换为制表符分隔或Ctrl A、Ctrl B分隔,然后上传到Hadoop/Hive。

要上传文件到HDFS,可以使用以下命令-

hadoop fs -put file_to_uplload hdfs_path

我假设您想自动化这个过程。在这种情况下,以下说明将有所帮助。

  1. 创建具有映射到CSV文件字段的列的Hive表(您可以在此步骤中删除不必要的字段)。在hive create table语句中选择您的分隔符。

  2. 将csv文件转换为分隔格式(Ctrl A或Ctrl B)

  3. 将文件上传到Hive表位置。

您可以使用Python批处理脚本/框架自动化所有步骤。

进一步阅读: http://wiki.apache.org/hadoop/Hive/GettingStarted


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接