何时应该使用 slurp 文件，何时应该逐行读取文件？

Question

何时应该使用 slurp 文件，何时应该逐行读取文件？

3

假设我有一个编辑文本文件的C#应用程序。每个文件使用的技术可以是以下两种之一：

1) 一次性将文件读入字符串，进行更改，并将该字符串写入现有文件：

string fileContents = File.ReadAllText(fileName);

// make changes to fileContents here...

using (StreamWriter writer = new StreamWriter(fileName))
{
    writer.Write(fileContents);
}

2) 逐行读取文件，将更改写入临时文件，然后删除源文件并重命名临时文件：

using (StreamReader reader = new StreamReader(fileName))
{
    string line;

    using (StreamWriter writer = new StreamWriter(fileName + ".tmp"))
    {
        while (!reader.EndOfStream)
        {
            line = reader.ReadLine();
            // make changes to line here
            writer.WriteLine(line);
        }
    }
}
File.Delete(fileName);
File.Move(fileName + ".tmp", fileName);

这些选项的性能考虑是什么？

在我看来，无论是按行读取还是一次性读取整个文件，读取的数据量都是相同的，磁盘时间将占主导地位而内存分配时间则不占优势。话虽如此，一旦文件被加载到内存中，操作系统就可以自由地将其分页，当这样做时，大读取的好处已经丧失了。另一方面，在使用临时文件时，一旦句柄关闭，我需要删除旧文件并重命名临时文件，这会产生一定的开销。

然后有关缓存、预读和磁盘缓冲区大小等问题......

我假设在某些情况下，一次性读取文件更好，而在其他情况下，按行操作更好。我的问题是，这两种情况的条件是什么？

- Justin R.

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Rex M · Accepted Answer

在某些情况下，一次读取整个文件更好；在另一些情况下，逐行操作更好。实际上，逐行读取是一个更具体的情况。我们想要区分的真正选择是ReadAll和使用缓冲区。ReadLine做出了一些假设——最大的假设是文件实际上有行，并且它们的长度是合理的！如果我们无法对文件做出这种假设，我们需要选择一个特定的缓冲区大小并读入其中，而不管是否已到达行末。因此，在阅读全部内容和使用缓冲区之间做出决策时，总是选择最容易实现和最幼稚的方法，直到你遇到一个具体的情况，该方法对你不起作用。有了具体的案例，你可以根据你实际拥有的信息做出明智的决定，而不是猜测假设情况。最简单的方法是一次性读取所有内容。当性能成为问题时？这个应用程序是否针对不可控制的文件运行，因此它们的大小是不可预测的？这里只是一些你需要将其分块的示例。