71得票6回答
集成测试Hive作业

我正在尝试使用Hive Thrift和JDBC接口编写一个非平凡的Hive作业,但我在设置一个良好的JUnit测试时遇到了问题。所谓的非平凡是指该作业至少产生一个MapReduce阶段,而不仅仅处理元数据存储库。 该测试应启动一个Hive服务器,将一些数据加载到表中,在该表上运行一些非平凡查...

70得票17回答
如何将Hive表导出为CSV文件?

我使用这个Hive查询将一个表导出到CSV文件中。INSERT OVERWRITE DIRECTORY '/user/data/output/test' select column1, column2 from table1; 生成的文件'000000_0'没有逗号分隔符这是生成CSV文件的正...

67得票3回答
PySpark:使用两个条件和三种结果的withColumn()函数

我正在使用Spark和PySpark。我试图实现与以下伪代码等效的结果:df = df.withColumn('new_column', IF fruit1 == fruit2 THEN 1, ELSE 0. IF fruit1 IS NULL OR fruit2 IS NULL 3...

67得票8回答
Hive数据检索查询:CLUSTER BY、ORDER BY和SORT BY的区别

在Hive上,对于数据检索查询(例如SELECT ...),而不是数据定义(例如CREATE TABLES ...),据我所了解: - SORT BY 只在 reducer 内部进行排序。 - ORDER BY 对所有内容进行全局排序,但将所有内容放入一个 reducer 中。 - CLUS...

64得票2回答
“-DskipTests”和“-Dmaven.test.skip=true”的区别是什么?

我正在尝试构建hive-0.13。 使用“-Dmaven.test.skip=true”时,它不会构建测试jar包,但会检查测试依赖项。 使用“-DskipTests”时,它不会构建测试jar包,也不会检查测试依赖项。 “-DskipTests”和“-Dmaven.test.skip=t...

62得票8回答
如何在Hive外部表中跳过CSV头?

我正在使用Cloudera的Hive版本,并尝试创建一个外部表,其数据是CSV文件,第一列包含列名。以下是我用来执行此操作的代码。CREATE EXTERNAL TABLE Test ( RecordId int, FirstName string, LastName str...

61得票18回答
Java.lang.RuntimeException: 无法实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

我在Ubuntu 14.0上安装了Hadoop 2.7.1和apache-hive-1.2.1版本。为什么会出现这个错误?需要安装任何元存储吗?当我们在终端键入hive命令时,xml是如何被内部调用的,这些xml的流程是什么?是否需要其他配置?当我在Ubuntu 14.0终端上编写hive命令...

61得票5回答
从Hive表中获取列名

我知道在Hive中可以通过以下技巧获取表中的列名:hive> set hive.cli.print.header=true; hive> select * from tablename; 是否也可以只从表中获取列名? 我不喜欢为了只需要一次的事情而改变设置。 我的当前解决方案如...

58得票5回答
Impala相比Hive如何提供更快的查询响应?

我最近开始研究使用Hive和Impala查询位于HDFS上的大型CSV数据集。正如我所预期的那样,到目前为止,对于我使用的查询,Impala相比Hive具有更快的响应时间。 我想知道是否仍然有一些类型的查询/用例需要使用Hive,而Impala不适用。 相对于Hive在相同的HDFS数据上...

57得票3回答
如何将数据从HDFS加载到Hive而不删除源文件?

当从HDFS加载数据到Hive时,使用LOAD DATA INPATH 'hdfs_file' INTO TABLE tablename; 这个命令似乎是将hdfs_file移动到hive/warehouse目录中。 是否可能(如何?)将它复制而不是移动,以便文件可以被另一个进程使用。