我有一个由三个节点组成的Hadoop集群。Vertica与集群同步安装。HDFS上有由Hive分区的Parquet文件。我的目标是使用Vertica查询这些文件。
目前我所做的是使用HDFS连接器,在Vertica中创建一个外部表,然后将其链接到HDFS。
目前我所做的是使用HDFS连接器,在Vertica中创建一个外部表,然后将其链接到HDFS。
CREATE EXTERNAL TABLE tableName (columns)
AS COPY FROM "hdfs://hostname/...../data" PARQUET;
由于数据大小较大,该方法将无法实现良好的性能。
我已经做了一些研究,Vertica Hadoop 集成。
我尝试过使用 HCatalog,但我的 Hadoop 上存在一些配置错误,因此它无法正常工作。
我的用例是在不更改 HDFS(Parquet)上的数据格式的情况下,使用 Vertica 查询。有什么好的想法吗?
编辑:Vertica 的性能变慢的唯一原因是它不能使用 Parquet 的分区。使用更高版本的 Vertica(8+),现在可以利用 Hive 的元数据来解决这个问题。因此,不需要使用 HCatalog。