在HDFS中将小文件合并成单个文件

Question

3

在一个HDFS群集中，我每天都会收到多个文件，这些文件可以分为以下三种类型:

1) product_info_timestamp 2) user_info_timestamp 3) user_activity_timestamp 接收到的文件数量可能是任意的，但它们只属于这三个类别之一。

我想将属于同一类别的所有文件合并成一个文件（在检查它们是否小于100MB后）。例如：名为product_info_* 的三个文件应该合并成一个名为product_info的文件。

我该如何实现这个目标？

- user3829376

Stack Overflow是一个关于编程和开发问题的网站。这个问题似乎不属于编程或开发范畴。请参阅帮助中心中的我可以在这里问什么样的问题。也许超级用户或Unix＆Linux Stack Exchange更适合提问。 - jww

3个回答

1

你可以使用Hadoop归档(.har文件)或序列文件(sequence file)。使用起来非常简单-只需搜索“Hadoop归档”或“序列文件”。

- alex-arkhipov

1

以下是与@SCouto建议类似的一组命令

hdfs dfs -cat /hdfs_path/product_info_* > /local_path/product_info_combined.txt

hdfs dfs -put /local_path/product_info_combined.txt /hdfs_path/

- Thomas

尝试使用每天1TB的数据，需要数小时才能完成。最好有一个纯HDFS解决方案，而不是将数据复制到本地节点。 - ulkas

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- SCouto · Accepted Answer

您可以使用getmerge来实现此操作，但结果将存储在本地节点（边缘节点）中，因此您需要确保在那里有足够的空间。

hadoop fs -getmerge /hdfs_path/product_info_* /local_path/product_inf

你可以使用put命令将它们移回到hdfs

hadoop fs -put  /local_path/product_inf /hdfs_path