创建Hive表以读取来自parquet/avro模式的parquet文件

6
我们正在寻找一种解决方案,用于创建一个外部Hive表,以便根据Parquet/Avro模式从Parquet文件中读取数据。
换句话说,如何从Parquet/Avro模式生成Hive表?
谢谢 :)
1个回答

17

尝试使用Avro模式:

CREATE TABLE avro_test ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS AVRO TBLPROPERTIES ('avro.schema.url'='myHost/myAvroSchema.avsc'); 

CREATE EXTERNAL TABLE parquet_test LIKE avro_test STORED AS PARQUET LOCATION 'hdfs://myParquetFilesPath';

同样的问题在这里被问到了。


我能直接从parquet文件创建表吗?或者如何从特定的parquet文件获取Avro模式? - Gary Gauh
@GaryGauh,针对你的第二个问题,这是我的答案。使用Parquet工具,您可以提取特定Parquet文件的Avro模式。请参考此链接以获取更多详细信息:http://kitesdk.org/docs/0.17.1/labs/4-using-parquet-tools-solution.html - JKC
它对我有效,但我能否使用Parquet模式(org.apache.parquet.schema.MessageType)来创建表格? - Vikram Gulia

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接