Hadoop gzip压缩文件

Question

Hadoop gzip压缩文件

javaalgorithmdata-structureshadoopmapreduce

19

我是新手，正在尝试处理维基百科转储。这是一个6.7GB的gzip压缩XML文件。我了解到Hadoop支持gzip压缩文件，但只能在单个作业中由mapper处理，因为只有一个mapper可以对其进行解压缩。这似乎对处理造成了限制。是否有其他选择？例如，将XML文件解压缩并拆分为多个块，然后再用gzip重新压缩它们。

我从http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html了解有关Hadoop gzip的信息。

感谢您的帮助。

- Boolean

5个回答

10

这是HDFS中最大的误解之一。

是的，使用gzip格式压缩的文件不可被MapReduce分片处理，但这并不意味着GZip作为编解码器在HDFS中没有价值，也不能被分片。

GZip作为编解码器可以和RCFiles、Sequence Files、Arvo Files等许多文件格式一起使用。当在可分片的文件格式中使用Gzip编解码器时，您将获得来自GZip的高压缩比和相对较快的速度以及可分段组件。

- Ted Malaska

3

GZIP文件由于编解码器的限制无法进行任何形式的分区。6.7GB并不是很大，所以只需在一台机器上解压缩它（这将花费不到一个小时），然后将XML复制到HDFS中。然后您就可以在Hadoop中处理维基百科XML。

Cloud9 包含一个 WikipediaPageInputFormat 类，您可以使用它来在Hadoop中读取XML。

- bajafresh4life

0

尽管gzip文件不可分割，但.bz2文件可以，并且Hadoop直接支持这些文件。Hadoop最佳可分割压缩格式。

- Murray Wilson

0

为什么不将其ungzip并改用可分割的LZ压缩呢？

http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

- Corey J. Nolet

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Niels Basjes · Accepted Answer

由于GZIP编解码器的工作方式，使用该编解码器压缩的文件无法分割。

Hadoop中的一个SPLIT只能由一个Mapper处理；因此，一个单独的GZIP文件只能由一个Mapper处理。

以下至少有三种方法可以避开这个限制：

作为预处理步骤：解压文件并使用可分割编解码器（LZO）重新压缩
作为预处理步骤：先解压文件，再将其拆分成较小的集合并重新压缩。（请参见此处）
使用我编写的Hadoop补丁程序，它可以绕过此限制：Splittable Gzip

希望对你有所帮助。