我的HDFS数据集使用parquet格式并采用snappy压缩编解码。根据我的研究,当前Redshift仅接受纯文本、json和avro格式,并支持gzip和lzo压缩编解码。
作为替代方案,我正在使用Pig脚本将parquet格式转换为纯文本,并更改snappy编解码为gzip。
是否有直接从parquet文件加载数据到Redshift的方法?
我的HDFS数据集使用parquet格式并采用snappy压缩编解码。根据我的研究,当前Redshift仅接受纯文本、json和avro格式,并支持gzip和lzo压缩编解码。
作为替代方案,我正在使用Pig脚本将parquet格式转换为纯文本,并更改snappy编解码为gzip。
是否有直接从parquet文件加载数据到Redshift的方法?
INSERT INTO x SELECT * FROM parquet_data
从Parquet中“加载”。 http://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html
编辑2:从2018年5月17日开始(适用于版本为1.0.2294或更高版本的集群),您可以直接将Parquet和ORC文件加载到Redshift中。https://docs.aws.amazon.com/redshift/latest/dg/copy-usage_notes-copy-from-columnar.html