我们有一个需求,需要附加 ORC 文件。我尝试过谷歌搜索,但没有结果。此外,ORC 的 org.apache.hadoop.hive.ql.io.orc.WriterImpl 没有追加 API。有没有办法附加 ORC 文件?(更具体地说,使用 JAVA)
ORC数据文件被细分为独立的“条带(stripe)”;每个条带都是在单个原子步骤中创建的。有关详细信息,请参见官方文档。我不认为你可以直接在运行时向现有文件追加内容。这意味着如果作业在写入时崩溃,将留下一个损坏的条带(因此是损坏的文件)。但是您可以:- 为每个Reducer创建一个新的ORC数据文件(根据实际数据量与orc.stripe.size属性而包含1..N个条带) - 然后使用Hive V0.14及以上版本“连接”这些数据文件--和现有文件--。