我的背景-在Hadoop领域仅有4周的经验。使用Cloudera's Hadoop VM尝试了一些Hive、Pig和Hadoop方面的内容。阅读了Google关于Map-Reduce和GFS的论文(PDF链接)。 我了解到- Pig的语言Pig Latin是从SQL式的声明式编程转变而来...
使用 Hadoop、HBase 或 Hive 有哪些好处? 据我所知,HBase 避免使用 MapReduce,并在 HDFS 上建立了基于列的存储。 Hive 是对 Hadoop 和 HBase 的类 SQL 接口。 我还想知道 Hive 与 Pig 的比较情况。
有谁可以告诉我Hive的外部表和内部表之间的区别。我知道这个区别在删除表时会体现出来。但是我不理解为什么在内部表中数据和元数据都被删除,而在外部表中只有元数据被删除。有人能用节点的术语来解释一下吗?
如何区分INNER JOIN和LEFT SEMI JOIN? 在下面的场景中,为什么我得到了两个不同的结果? INNER JOIN 的结果集要大得多。有人能解释一下吗?我想获取只出现在table_2中的table_1的名称。SELECT name FROM table_1 a IN...
我正在寻找Hive QL中与SET varname = value相对应的SQL语句。 我知道我可以像这样做:SET CURRENT_DATE = '2012-09-16'; SELECT * FROM foo WHERE day >= @CURRENT_DATE 但是我得到了这个错误...
能否直接将Spark中的DataFrame保存到Hive中? 我试过将DataFrame转换为Rdd,然后另存为文本文件,并在Hive中加载。但我想知道是否可以直接将DataFrame保存到Hive。
如何从命令提示符中查找正在使用的Hive版本。以下是详细信息- 我正在使用Putty连接到Hive表并访问表中的记录。所以我做的是:我打开了Putty,在主机名中输入leo-ingesting.vip.name.com,然后点击打开。然后我输入了我的用户名和密码,然后输入了一些命令来进入Hi...