如何根据文件大小拆分ORC文件？

Question

3

我有一个需求，需要将一个大小为5GB的ORC文件分成5个大小为1GB的文件。 ORC文件是可分割的。这是否意味着我们只能逐个条带地拆分文件？但我的要求是根据大小拆分ORC文件。例如，将5GB ORC文件拆分为每个1GB大小的5个文件。如果可能的话，请分享示例。

- Sham Desale

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- dbustosp · Accepted Answer

一种常见的方法，考虑到你的文件大小可能是5GB、100GB、1TB、100TB等，您可能希望挂载一个指向该文件的Hive表，并定义另一个指向不同目录的表，然后使用Hive提供的insert语句从一个表插入到另一个表。

在脚本开头，请确保您有以下Hive标志：

set hive.merge.mapredfiles=true;
set hive.merge.mapfiles=true;
set hive.merge.smallfiles.avgsize=1073741824;
set hive.merge.size.per.task=1073741824;

这样，对于每个Reducer来说，输出的平均值将为1073741824字节，相当于1GB。

如果您只想使用Java代码，请尝试使用以下标志：

mapred.max.split.size
mapred.min.split.size

请查看以下内容，它们非常有用：