为什么std::cout如此耗时?

9

我已经写了一个程序来计算一个由8个字符组成的字符串 "sharjeel" 的排列。

#include <iostream>
#include <time.h>

char string[] = "sharjeel";
int len = 8;
int count = 0;

void swap(char& a, char& b){
    char t = a;
    a = b;
    b = t;
}
void permute(int pos) {
    if(pos==len-1){
        std::cout << ++count << "\t" << string << std::endl;
        return;
    }
    else {
        for (int i = pos; i < len;i++)
        {
            swap(string[i], string[pos]);
            permute(pos + 1);
            swap(string[i], string[pos]);
        }
    }
}

int main(){
    clock_t start = clock();
    permute(0);
    std::cout << "Permutations: " << count << std::endl;
    std::cout << "Time taken: " << (double)(clock() - start) / (double)CLOCKS_PER_SEC << std::endl;
    return 1;
}

如果我在打印每个排列的同时,执行完成需要约9.8秒。

40314   lshaerej
40315   lshareej
40316   lshareje
40317   lshareej
40318   lshareje
40319   lsharjee
40320   lsharjee
Permutations: 40320
Time taken: 9.815

现在,如果我替换掉这行代码:
std::cout << ++count << "\t" << string << std::endl;

使用这个:

++count;

重新编译后,输出为:

Permutations: 40320
Time taken: 0.001

再次运行:

Permutations: 40320
Time taken: 0.002

使用g++编译并使用-O3参数进行优化。

为什么std::cout的耗时相对较长?有没有更快的打印方式?

编辑:制作了一个C#版本的程序。

/*
 * Permutations
 * in c#
 * much faster than the c++ version 
 */

using System;
using System.Diagnostics;

namespace Permutation_C
{
    class MainClass
    {
        private static uint len;
        private static char[] input;
        private static int count = 0;

        public static void Main (string[] args)
        {
            Console.Write ("Enter a string to permute: ");
            input = Console.ReadLine ().ToCharArray();
            len = Convert.ToUInt32(input.Length);
            Stopwatch clock = Stopwatch.StartNew();
            permute (0u);
            Console.WriteLine("Time Taken: {0} seconds", clock.ElapsedMilliseconds/1000.0);
        }

        static void permute(uint pos)
        {

            if (pos == len - 1u) {
                Console.WriteLine ("{0}.\t{1}",++count, new string(input));
                return;
            } else {
                for (uint i = pos; i < len; i++) {
                    swap (Convert.ToInt32(i),Convert.ToInt32(pos));
                    permute (pos + 1);
                    swap (Convert.ToInt32(i),Convert.ToInt32(pos));
                }
            }

        }
        static void swap(int a, int b) {
            char t = input[a];
            input[a] = input[b];
            input[b] = t;
        }
    }
}

输出:

40313.  lshaerje
40314.  lshaerej
40315.  lshareej
40316.  lshareje
40317.  lshareej
40318.  lshareje
40319.  lsharjee
40320.  lsharjee
Time Taken: 4.628 seconds
Press any key to continue . . .

从这里来看,与std::cout的结果相比,Console.WriteLine()似乎快了将近一倍。是什么在拖慢std::cout的速度?


2
你正在每个排列时刷新缓冲区。请尝试使用 '\n' 而不是 std::endl。尽管如答案所述,仍会变慢,但您可能会观察到加速。 - juanchopanza
3
考虑使用 std::ios_base::sync_with_stdio 禁用 printfstd::cout 之间的同步。 - François Andrieux
@nos 没有进行优化 '用时:0.001' - Saad
如果您不想在每次写操作时刷新输出流,请不要使用std::endl - 使用\n代替即可。 - Jesper Juhl
显示剩余3条评论
1个回答

20

std::cout 最终会导致操作系统被调用。

如果你想让计算速度更快,你必须确保计算中没有涉及到外部实体,尤其是那些以灵活性而非性能为主要考虑因素的实体,如操作系统。

想让它运行得更快?你有几个选择:

  1. << std::endl; 替换为 << '\n'。这样可以避免在每一行上将 C++ 运行时的内部缓冲区刷新到操作系统上,从而应该会带来巨大的性能提升。

  2. 按照用户 Galik Mar 的建议,使用 std::ios::sync_with_stdio(false);

  3. 尽可能多地将输出文本收集到缓冲区中,并使用单个调用一次性输出整个缓冲区。

  4. 将输出写入文件而非控制台,然后使用诸如 Notepad++ 等单独的应用程序来显示该文件,该应用程序可以跟踪更改并自动滚动到底部。

至于为什么它非常 "耗时",也就是说,非常 "慢",这是因为 std::cout(最终为操作系统的标准输出流)的主要目的是灵活性而不是性能。想一想: std::cout 是一个 C++ 库函数,它将调用操作系统;操作系统将确定被写入的文件实际上不是文件,而是控制台,因此它将向控制台子系统发送数据;控制台子系统将接收数据,然后开始调用图形子系统在控制台窗口中呈现文本;图形子系统将在光栅显示器上绘制字体字符,在渲染数据时会出现滚动控制台窗口,这涉及复制大量视频 RAM。即使图形卡在硬件上处理了其中的一些工作,这仍然是非常繁琐的。

对于C#版本,我不确定具体发生了什么,但可能发生的情况是:在C#中,您没有调用Console.Out.Flush(),因此输出被缓存,您不会遭受由C++的std::cout << std::endl引起的每行刷新操作开销。 然而,当缓冲区变满时,C# 必须将其刷新到操作系统,然后它不仅遭受操作系统的开销,还要承受管理到本机和本机到管理的巨大转换,这是由它的虚拟机工作方式固有的。


但是 Console.WriteLine() 的速度是 2 倍快。 - Saad
2
同时,作为第一行的 std::ios::sync_with_stdio(false); 也会产生影响。 - Galik
1
地球上没有办法通过将输出写入文件并在Notepad++中跟踪它来比Windows控制台更快,无论它有多慢。此外,现代Windows版本通常使用TrueType字体作为控制台字体,而不是光栅字体(但是,公平地说,您没有特别说明 - 您说显示器是光栅的,这是真的)。不幸的是,无论哪个程序显示输出,都必须执行对图形子系统的调用。最后,我不会说滚动控制台需要大量视频RAM,根本不需要。 - Marc.2377
这是一个有道理的观点,但将数据写入磁盘也不是非常快,特别是当另一个应用程序同时在读取它时。 - Marc.2377
@Marc.2377 是的,但操作系统通常会缓冲要写入的数据,并稍后进行实际写入,而不是在感兴趣的进程内部进行。除非您以如此高的速率进行写入,以填满操作系统的缓冲区,否则您将不会受到磁盘写入延迟的影响。无论如何,我并不是说这一切都很好,我只是说可能不会太糟糕。 - Mike Nakis
显示剩余4条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接