35得票18回答
Java.lang.RuntimeException:无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient

我已按照以下链接配置了我的Hive:http://www.youtube.com/watch?v=Dqo1ahdBK_A,但是在Hive中创建表时出现了以下错误。我正在使用hadoop-1.2.1和hive-0.12.0。hive> create table employee(emp_i...

17得票4回答
为Presto和AWS S3设置独立的Hive Metastore服务

我在一个使用S3服务作为数据湖的环境中工作,但不使用AWS Athena。我想设置Presto来查询S3中的数据,我知道需要通过Hive Metastore服务将数据结构定义为Hive表。我在Docker中部署每个组件,所以我希望尽可能减小容器大小。从Hive中需要哪些组件才能仅运行Metas...

16得票2回答
Hive服务,HiveServer2和MetaStore服务是什么?

我正在尝试从架构的角度理解hive,并参考Tom White所写的有关Hadoop的书籍。 我在涉及到hive时遇到了以下术语:Hive服务,hiveserver2,Metastore等。 参考下面这些来自书中的图示(《Hadoop权威指南》) Hive架构: MetaStore配...

9得票4回答
当连接键是bucketBy键的超集时,我该如何说服Spark不进行交换?

在测试生产用例时,我创建并保存了(使用Hive Metastore)以下表格: table1: fields: key1, key2, value1 sortedBy key1,key2 bucketBy: key1, 100 buckets table2: fields: key1, k...

9得票1回答
在Hadoop 3中,Spark和Hive:metastore.catalog.default和spark.sql.catalogImplementation的区别。

我正在使用装有Hadoop 3、Spark和Hive的Hadoop集群(HDP)。由于Spark和Hive目录是分离的,有时候在Spark应用程序中保存数据时会有些混淆。 我知道可以设置属性“spark.sql.catalogImplementation”为“in-memory”(使用基于S...

8得票2回答
如何在Hive中获取列名和类型

I know of these, To get column names in a table we can fire: show columns in <database>.<table_name> To get description of a table (...

8得票2回答
AWS Glue数据目录作为Databricks等外部服务的元存储

假设数据湖位于AWS上,使用S3作为存储,Glue作为数据目录。因此,我们可以轻松地使用athena、redshift或EMR使用Glue作为元存储在S3上查询数据。 我的问题是,是否可能将Glue数据目录公开为外部服务(如托管在AWS上的Databricks)的元数据存储?

8得票1回答
如何检查Hive中是否存在一个分区?

我有一个Hive表,其按列dt分区。如果不存在该分区,例如dt='20181219',则需要添加一个分区。 现在我正在使用HiveMetaStoreClient#getPartition(dbName, tableName, 20181219)。如果该分区不存在,则捕获NoSuchObjec...

7得票2回答
Hive数据存储在哪里?

我有点困惑Hive数据存储在哪里。 它的数据是存储在HDFS还是RDBMS中? Hive元数据存储是否使用RDBMS存储Hive表格元数据? 提前感谢!!