在Java中使用BufferedReader读取大文件

Question

在Java中使用BufferedReader读取大文件

3

我了解在Java中读取大型文本文件有两种方法。一种是使用Scanner，另一种是使用BufferedReader。

Scanner reader = new Scanner(new FileInputStream(path));
while (reader.hasNextLine()){
    String tempString = reader.nextLine();
    System.out.println(java.lang.Runtime.getRuntime().totalMemory()/(1024*1024.0));
}

需要打印的数字始终在某个值左右波动。

然而，当我按照下面的修改使用bufferedReader时，数字不稳定，可能在一行中突然增加（约20MB），然后在接下来的许多行中保持相同（如8000行）。这个过程会重复。

更新我在这里输入了使用BufferedReader的第二种方法，以下是正确的写法：

BufferedReader reader = new BufferedReader
    (new InputStreamReader(new FileInputStream(path)),5*1024*1024);
for(String s = null;(s=reader.readLine())!=null; ){
    System.out.println(java.lang.Runtime.getRuntime().totalMemory()/(1024*1024.0));
}

或者使用 while 循环

String s;
while ((s=reader.readLine())!=null ){
    System.out.println(java.lang.Runtime.getRuntime().totalMemory()/(1024*1024.0));
}

更具体地说，这里是读取250M文件的测试用例结果。

扫描器案例：行号-总内存 5000-117.0 10000-112.5 15000-109.5 20000-109.5 25000-109.5 30000-109.5 35000-109.5 40000-109.5 45000-109.5 50000-109.5

缓冲读取器案例：行号-总内存 5000-123.0 10000-155.5 15000-155.5 20000-220.5 25000-220.5 30000-220.5 35000-220.5 40000-220.5 45000-220.5 50000-211.0

然而，扫描器速度较慢，这就是我试图避免使用它的原因。

另外，我检查了缓冲读取器的情况，发现内存总量突然在一个随机行中增加。

- Zheyu Ji

可能是由于BufferedReader后面的缓冲区管理问题... - Jean-Baptiste Yunès

3

你的第二个循环是一个繁忙的循环，不断获取和打印总内存。它读取一行文本，然后不停地循环。 - JB Nizet

当你让BufferedReader使用5 MB缓冲区时，你并没有在真正比较苹果与苹果。此外，你不会看到大缓冲区的性能提升。你可以将缓冲区大小降低到4 KB或者16 KB，而不会有性能损失。你会发现，即使你只使用默认缓冲区大小，BufferedReader也比Scanner要快得多。 - Andreas

1

totalMemory对于你（可能）想要学习的内容完全无关紧要。请尝试使用freeMemory。 - laune

谢谢大家，但我仍然感到困惑，我并不是要比较他们使用的内存，我只是想知道为什么使用bufferedReader的内存会增加，并在单个随机行中突然增加。 - Zheyu Ji

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- laune · Accepted Answer

仅仅使用Scanner不能很好地处理大型文本文件。Scanner和BufferedReader不能相提并论。你可以在Scanner中使用BufferedInputStream，这样就有了同样的功能，而Scanner添加了许多“流”读取功能，而不仅仅是行。查看totalMemory并不特别有用。引用Javadoc：返回Java虚拟机中的总内存量。该方法返回的值可能会随时间而变化，具体取决于主机环境。尝试使用freeMemory，这更有趣，反映每隔一段时间发生的GC阶段。稍后评论Scanner的速度慢：读取一行只需要扫描行分隔符的字节，这就是BufferedReader所做的。然而，Scanner为此任务启动了java.util.regex.Matcher（因为它更适合其整体设计）。仅使用Scanner读取行是不必要的。