在一个HDFS群集中,我每天都会收到多个文件,这些文件可以分为以下三种类型:
1) product_info_timestamp 2) user_info_timestamp 3) user_activity_timestamp 接收到的文件数量可能是任意的,但它们只属于这三个类别之一。
我想将属于同一类别的所有文件合并成一个文件(在检查它们是否小于100MB后)。例如:名为product_info_* 的三个文件应该合并成一个名为product_info的文件。
我该如何实现这个目标?
1) product_info_timestamp 2) user_info_timestamp 3) user_activity_timestamp 接收到的文件数量可能是任意的,但它们只属于这三个类别之一。
我想将属于同一类别的所有文件合并成一个文件(在检查它们是否小于100MB后)。例如:名为product_info_* 的三个文件应该合并成一个名为product_info的文件。
我该如何实现这个目标?