我们希望使用org.apache.orc.Writer创建ORC文件。我们的测试都很顺利,直到从一个包含blob-s的更大的数据库表中创建ORC文件。我们尝试更改以下设置,但它们都没有起作用:
org.apache.orc.OrcFile.WriterOptions:
bufferSize()
stripeSize()
blockSize()
enforceBufferSize()
Orc writer会获取所有的数据集,只有在完成后才将它们写出,这种行为会导致处理较大数据集时出现内存问题。是否有一种方法可以持续填充ORC文件(连续地从内存中刷新),而不是在关闭文件编写器时刷新数据?创建包含blob的数据源的ORC文件的最佳实践是什么,并且不能仅在内存中处理?
感谢您的阅读!
谢谢。 Tamas