如何追加ORC文件

5

我们有一个需求,需要附加 ORC 文件。我尝试过谷歌搜索,但没有结果。此外,ORCorg.apache.hadoop.hive.ql.io.orc.WriterImpl 没有追加 API。有没有办法附加 ORC 文件?(更具体地说,使用 JAVA)

1个回答

4
ORC数据文件被细分为独立的“条带(stripe)”;每个条带都是在单个原子步骤中创建的。有关详细信息,请参见官方文档
我不认为你可以直接在运行时向现有文件追加内容。这意味着如果作业在写入时崩溃,将留下一个损坏的条带(因此是损坏的文件)。
但是您可以:
- 为每个Reducer创建一个新的ORC数据文件(根据实际数据量与orc.stripe.size属性而包含1..N个条带) - 然后使用Hive V0.14及以上版本“连接”这些数据文件--和现有文件--。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接