得票数最多 'hive' 问题 - 第3页

关联标签

71得票6回答

集成测试Hive作业

我正在尝试使用Hive Thrift和JDBC接口编写一个非平凡的Hive作业，但我在设置一个良好的JUnit测试时遇到了问题。所谓的非平凡是指该作业至少产生一个MapReduce阶段，而不仅仅处理元数据存储库。该测试应启动一个Hive服务器，将一些数据加载到表中，在该表上运行一些非平凡查...

javatestinghadoopmapreducehive

70得票17回答

如何将Hive表导出为CSV文件？

我使用这个Hive查询将一个表导出到CSV文件中。INSERT OVERWRITE DIRECTORY '/user/data/output/test' select column1, column2 from table1; 生成的文件'000000_0'没有逗号分隔符这是生成CSV文件的正...

csvhive

67得票3回答

PySpark：使用两个条件和三种结果的withColumn()函数

我正在使用Spark和PySpark。我试图实现与以下伪代码等效的结果：df = df.withColumn('new_column', IF fruit1 == fruit2 THEN 1, ELSE 0. IF fruit1 IS NULL OR fruit2 IS NULL 3...

apache-sparkhivepysparkapache-spark-sqlhiveql

67得票8回答

Hive数据检索查询：CLUSTER BY、ORDER BY和SORT BY的区别

在Hive上，对于数据检索查询（例如SELECT ...），而不是数据定义（例如CREATE TABLES ...），据我所了解： - SORT BY 只在 reducer 内部进行排序。 - ORDER BY 对所有内容进行全局排序，但将所有内容放入一个 reducer 中。 - CLUS...

hadoophqlhive

64得票2回答

“-DskipTests”和“-Dmaven.test.skip=true”的区别是什么？

我正在尝试构建hive-0.13。使用“-Dmaven.test.skip=true”时，它不会构建测试jar包，但会检查测试依赖项。使用“-DskipTests”时，它不会构建测试jar包，也不会检查测试依赖项。 “-DskipTests”和“-Dmaven.test.skip=t...

javamavenhive

62得票8回答

如何在Hive外部表中跳过CSV头？

我正在使用Cloudera的Hive版本，并尝试创建一个外部表，其数据是CSV文件，第一列包含列名。以下是我用来执行此操作的代码。CREATE EXTERNAL TABLE Test ( RecordId int, FirstName string, LastName str...

hive

61得票18回答

Java.lang.RuntimeException: 无法实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

我在Ubuntu 14.0上安装了Hadoop 2.7.1和apache-hive-1.2.1版本。为什么会出现这个错误？需要安装任何元存储吗？当我们在终端键入hive命令时，xml是如何被内部调用的，这些xml的流程是什么？是否需要其他配置？当我在Ubuntu 14.0终端上编写hive命令...

apachehadoophive

61得票5回答

从Hive表中获取列名

我知道在Hive中可以通过以下技巧获取表中的列名：hive> set hive.cli.print.header=true; hive> select * from tablename; 是否也可以只从表中获取列名？我不喜欢为了只需要一次的事情而改变设置。我的当前解决方案如...

sqlhadoophive

58得票5回答

Impala相比Hive如何提供更快的查询响应？

我最近开始研究使用Hive和Impala查询位于HDFS上的大型CSV数据集。正如我所预期的那样，到目前为止，对于我使用的查询，Impala相比Hive具有更快的响应时间。我想知道是否仍然有一些类型的查询/用例需要使用Hive，而Impala不适用。相对于Hive在相同的HDFS数据上...

hadoophiveimpala

57得票3回答

如何将数据从HDFS加载到Hive而不删除源文件？

当从HDFS加载数据到Hive时，使用LOAD DATA INPATH 'hdfs_file' INTO TABLE tablename; 这个命令似乎是将hdfs_file移动到hive/warehouse目录中。是否可能（如何？）将它复制而不是移动，以便文件可以被另一个进程使用。

hadoophive