在单独的线程中执行压缩的GZIPOutputStream

4

是否有一个GZIPOutputStream的实现,可以在单独的线程中完成压缩和写入磁盘的繁重工作?

我们不断地写入大量的GZIP压缩数据。我正在寻找一个可替换GZIPOutputStream的解决方案。


1
啊,如果我说错了,请纠正我。你不是可以自己用线程包装 GZIPOutputStream 吗? - Femi
GZIPOutputStream不会将任何内容写入磁盘。 - JB Nizet
@JBNizet:没错,我搞混了。 - krlmlr
@Femi:请详细说明。 - krlmlr
@PeterLawrey的回答几乎完美地概括了它。 - Femi
请查看我在下面的新答案(很抱歉,这个问题已经问了7年之久!)。 - Luke Hutchison
2个回答

5

您可以写入PipedOutputStream并有一个线程读取PipedInputStream并将其复制到任何您喜欢的流中。

这是一个通用实现。您提供要写入的OutputStream,它会为您返回一个可供写入的OutputStream。

public static OutputStream asyncOutputStream(final OutputStream out) throws IOException {
    PipedOutputStream pos = new PipedOutputStream();
    final PipedInputStream pis = new PipedInputStream(pos);
    new Thread(new Runnable() {
        @Override
        public void run() {
            try {
                byte[] bytes = new byte[8192];
                for(int len; (len = pis.read(bytes)) > 0;)
                    out.write(bytes, 0, len);
            } catch(IOException ioe) {
                ioe.printStackTrace();
            } finally {
                close(pis);
                close(out);
            }
        }
    }, "async-output-stream").start();
    return pos;
}

static void close(Closeable closeable) {
    if (closeable != null) try {
        closeable.close();
    } catch (IOException ignored) {
    }
}

这比我的答案好多了 :) - David Grant
听起来很有前途。您如何将PipedInputStream附加到GZIPOutputStream(都在工作线程中)?是否有一个有效的流复制器可以实现此目的? - krlmlr
我已经添加了一个示例实现。 - Peter Lawrey
还有一件事:在我的看法中,PipedInputStream 是在同一个线程中创建的,与 PipedOutputStream 相同。难道不应该在工作线程中创建它吗? - krlmlr
考虑到GZIP的缓冲区大小为512字节,并且它完成了大部分的实际工作,我认为8 KB过于浪费。我以前尝试过使用NIO和GZIP,但并没有发现它更快(因为大部分延迟是由压缩引起的)。 - Peter Lawrey
显示剩余3条评论

1

我发布了一些代码,可以完全满足您的需求。一直以来,我对Java无法自动在多个线程之间管道调用感到失望,以便重叠计算、压缩和磁盘I/O:

https://github.com/lukehutch/PipelinedOutputStream

这个类将写入OutputStream的过程拆分为生产者和消费者线程(实际上,为消费者启动了一个新线程),并在它们之间插入了一个阻塞有界缓冲区。虽然在缓冲区之间进行了一些数据复制,但这是尽可能高效地完成的。
甚至可以将其叠加两次,将磁盘写入与gzip压缩分开到不同的线程中进行,如README.md所示。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接