为什么我的Rust程序比同等的Java程序慢？

Question

为什么我的Rust程序比同等的Java程序慢？

performancerustfile-iobenchmarkingmicrobenchmark

17

我在 Rust 中尝试使用二进制序列化和反序列化，并发现与 Java 相比，二进制反序列化要慢几个数量级。为了排除由于分配和开销等原因导致的开销可能性，我仅仅从每个程序中读取一个二进制流。每个程序都从磁盘上的二进制文件中读取，其中包含一个 4 字节整数，其中包含输入值的数量，以及一个连续的 8 字节大端 IEEE 754 编码浮点数的块。这是 Java 实现:

import java.io.*;

public class ReadBinary {
    public static void main(String[] args) throws Exception {
        DataInputStream input = new DataInputStream(new BufferedInputStream(new FileInputStream(args[0])));
        int inputLength = input.readInt();
        System.out.println("input length: " + inputLength);
        try {
            for (int i = 0; i < inputLength; i++) {
                double d = input.readDouble();
                if (i == inputLength - 1) {
                    System.out.println(d);
                }
            }
        } finally {
            input.close()
        }
    }
}

这是 Rust 的实现：

use std::fs::File;
use std::io::{BufReader, Read};
use std::path::Path;

fn main() {
    let args = std::env::args_os();
    let fname = args.skip(1).next().unwrap();
    let path = Path::new(&fname);
    let mut file = BufReader::new(File::open(&path).unwrap());
    let input_length: i32 = read_int(&mut file);
    for i in 0..input_length {
        let d = read_double_slow(&mut file);
        if i == input_length - 1 {
            println!("{}", d);
        }
    }
}

fn read_int<R: Read>(input: &mut R) -> i32 {
    let mut bytes = [0; std::mem::size_of::<i32>()];
    input.read_exact(&mut bytes).unwrap();
    i32::from_be_bytes(bytes)
}

fn read_double_slow<R: Read>(input: &mut R) -> f64 {
    let mut bytes = [0; std::mem::size_of::<f64>()];
    input.read_exact(&mut bytes).unwrap();
    f64::from_be_bytes(bytes)
}

我输出最后一个值以确保所有输入都被读取。在我的机器上，当文件包含（相同的）3000万个随机生成的双精度浮点数时，Java版本运行时间为0.8秒，而Rust版本运行时间为40.8秒。

对Rust字节解释本身的低效性感到怀疑，我尝试了使用自定义的浮点数反序列化实现进行重试。内部实现几乎与Rust的Reader中所做的完全相同,没有IoResult包装：

fn read_double<R : Reader>(input: &mut R, buffer: &mut [u8]) -> f64 {
    use std::mem::transmute;
    match input.read_at_least(8, buffer) {
        Ok(n) => if n > 8 { fail!("n > 8") },
        Err(e) => fail!(e)
    };
    let mut val = 0u64;
    let mut i = 8;
    while i > 0 {
        i -= 1;
        val += buffer[7-i] as u64 << i * 8;
    }
    unsafe {
        transmute::<u64, f64>(val);
    }
}

我所做的唯一更改是创建一个8字节的片段，以便在read_double函数中传递并（重新）使用作为缓冲区。这带来了显著的性能提升，平均运行时间约为5.6秒。不幸的是，这仍然比Java版本慢得多（而且更冗长！），难以扩展到更大的输入集。有没有办法使Rust运行得更快？更重要的是，是否可以以这样的方式进行更改，以便将其合并到默认的Reader实现中，从而使二进制I/O更加轻松？

供参考，以下是我用于生成输入文件的代码：

import java.io.*;
import java.util.Random;

public class MakeBinary {
    public static void main(String[] args) throws Exception {
        DataOutputStream output = new DataOutputStream(new BufferedOutputStream(System.out));
        int outputLength = Integer.parseInt(args[0]);
        output.writeInt(outputLength);
        Random rand = new Random();
        for (int i = 0; i < outputLength; i++) {
            output.writeDouble(rand.nextDouble() * 10 + 1);
        }
        output.flush();
    }
}

（请注意，在我的测试机器上生成随机数并将其写入磁盘只需3.8秒。）

- Ben Sidhom

4

你是否正在进行优化构建？（使用 rustc -O 或 cargo --release 命令）我会尝试全面比较，但我没有安装 Java。 - Chris Morgan

1

哎呀！我甚至没有想到启用优化。使用 rustc -O，慢版本运行时间为1.5秒，快版本运行时间为0.4秒。仍然有点奇怪的是，朴素的Rust版本比Java版本运行得更慢，但我想这可能归因于 IoResult 包装器。我不知道我是否应该关闭问题，还是您想将此作为答案添加。 - Ben Sidhom

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Chris Morgan · Accepted Answer

如果不进行优化构建，它通常会比Java慢。但是使用优化（rustc -O或cargo --release）进行构建，它就会快得多。如果标准版本仍然比较慢，就需要仔细检查它的哪个部分存在缓慢的问题，也许某些应该被内联的内容没有被内联，或者有一些预期的优化没有发生。