259得票19回答
Pig和Hive有什么区别?为什么两者都需要使用?

我的背景-在Hadoop领域仅有4周的经验。使用Cloudera's Hadoop VM尝试了一些Hive、Pig和Hadoop方面的内容。阅读了Google关于Map-Reduce和GFS的论文(PDF链接)。 我了解到- Pig的语言Pig Latin是从SQL式的声明式编程转变而来...

203得票17回答
何时使用Hadoop、HBase、Hive和Pig?

使用 Hadoop、HBase 或 Hive 有哪些好处? 据我所知,HBase 避免使用 MapReduce,并在 HDFS 上建立了基于列的存储。 Hive 是对 Hadoop 和 HBase 的类 SQL 接口。 我还想知道 Hive 与 Pig 的比较情况。

56得票7回答
PIG如何计算别名中的行数?

我在PIG中尝试了这样的方式来计算别名中行的数量:logs = LOAD 'log' logs_w_one = foreach logs generate 1 as one; logs_group = group logs_w_one all; logs_count = foreach log...

54得票8回答
如何从parquet文件中获取模式/列名称?

我有一个存储在HDFS上的文件,名为part-m-00000.gz.parquet 我尝试运行命令hdfs dfs -text dir/part-m-00000.gz.parquet,但它是压缩文件,所以我运行了gunzip part-m-00000.gz.parquet,但它不能解压文件,...

35得票4回答
Apache Pig: FLATTEN和reducers的并行执行

我已经实现了一个Apache Pig脚本。当我执行脚本时,在特定步骤中会得到许多映射器,但只有一个减速器。由于这种情况(多个映射器,一个减速器),当单个减速器执行时,Hadoop集群几乎处于闲置状态。为了更好地利用集群资源,我希望同时运行多个减速器。 即使我在Pig脚本中使用SET DEFAU...

32得票8回答
在Hadoop中将多个文件合并为一个

我有很多小文件放在输入目录中,想要将它们合并为一个文件,但不想使用本地文件系统或编写MapReduce。是否有一种方法可以使用Hadoop FS命令或Pig来完成这个任务? 谢谢!

29得票11回答
猪拉丁文:从日期范围(目录结构的一部分)加载多个文件

我有以下情况 - 使用的Pig版本为0.70 示例HDFS目录结构:/user/training/test/20100810/<data files> /user/training/test/20100811/<data files> /user/training/...

28得票2回答
如何从Hive分组操作符中获取元素的数组/包?

我希望按照给定字段进行分组,并获取分组字段的输出。下面是我所尝试实现的示例: 假设有一个名为“sample_table”的表,具有以下两列:F1 F2 001 111 001 222 001 123 002 222 002 333 003 555 我想编写 Hive 查询以获得以下输出:0...

22得票4回答
Hadoop Pig:传递命令行参数

有没有什么方法可以做到这一点?例如,传递要处理的文件的名称等?

21得票6回答
如何在Apache Pig中使用地图数据类型?

我想使用Apache Pig构建一个大型键值映射,查找映射中的内容,并遍历所有键。然而,似乎没有语法可用于完成这些操作。我已经查阅了手册、维基、示例代码、《大象书》、谷歌甚至尝试了解析解析器源代码,但每个例子都是从文件中加载映射文字……然后从未使用它们。你如何使用Pig的映射? 首先,似乎没...