如何在Java中计算文件的哈希值?

13

我写了下面这个程序来在Java中计算字符串的SHA-256哈希值:

public class ToHash {

    public static void main(String[] args)  {

        byte[] data = "test".getBytes("UTF8");
        MessageDigest digest = MessageDigest.getInstance("SHA-256");
        byte[] hash = digest.digest(data);
        System.out.println(new BASE64Encoder().encode(hash));

    }
}

好的,那很好。在下一步中,我想以一种接受文件并计算其哈希值的方式来开发它。 我的解决方案是将整个文件读入字符串数组中,然后在该字符串数组上调用 digest() 方法。 但是有两个问题:

  1. 我不知道如何将整个文件读入数组? 目前我认为必须逐行读取文件并将新行附加到数组中!

  2. 上述方法对于大文件需要大量内存!


这是我目前用来读取文件的程序:

public class ToHash {

    public static void main(String[] args) throws NoSuchAlgorithmException, UnsupportedEncodingException, FileNotFoundException, IOException {
        // TODO code application logic here

        // The name of the file to open.
        String fileName = "C:\\Users\\ghasemi\\Desktop\\1.png";
        BufferedReader br = null;

        try {

            String sCurrentLine;
            br = new BufferedReader(new FileReader(fileName));
            while ((sCurrentLine = br.readLine()) != null) {
                byte[] data = sCurrentLine.getBytes("UTF8");
                System.out.println(new BASE64Encoder().encode(data));
            }

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                if (br != null) {
                    br.close();
                }
            } catch (IOException ex) {
                ex.printStackTrace();
            }
        }

    }
}

似乎没有一种方法可以让 BufferedReader 对象通过一次调用读取整个文件。

1个回答

26

当您阅读文件时,可以边读边计算哈希值。

    byte[] buffer= new byte[8192];
    int count;
    MessageDigest digest = MessageDigest.getInstance("SHA-256");
    BufferedInputStream bis = new BufferedInputStream(new FileInputStream(fileName));
    while ((count = bis.read(buffer)) > 0) {
        digest.update(buffer, 0, count);
    }
    bis.close();

    byte[] hash = digest.digest();
    System.out.println(new BASE64Encoder().encode(hash));

这并不假设字符集或文件适合内存,并且也不忽略行终止符。

或者您可以使用DigestInputStream


1
以上程序是否适用于所有大文件?例如1GB的文件! - Ebrahim Ghasemi
1
@Abraham 当然可以,为什么不呢?它只需要8192字节的内存加上摘要使用的任何内容。您可以尝试调整缓冲区大小,但不要使其太小。 - user207421
我曾经被教导,在digest.update()方法中,我们将读取的数据附加到先前数据的末尾,因此对于大文件,我们需要大量的内存(RAM)。 - Ebrahim Ghasemi
1
@Abraham 不,我们是逐步重新计算哈希值的。请参阅Javadoc。没有关于追加数据的内容。data是一个打字错误。 - user207421
啊!所以我再次感谢你,希望它很快会变得更好 :) - Ebrahim Ghasemi
显示剩余5条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接