在单个 CPU 上启动的进程无法避免上下文切换。

Question

在单个 CPU 上启动的进程无法避免上下文切换。

performancelinux-kernelscheduleraffinitycontext-switch

10

我正在调查如何在专用CPU上运行进程，以避免上下文切换。在我的Ubuntu上，我使用内核参数“isolcpus = 3,7”和“irqaffinity = 0-2、4-6”隔离了两个CPU。我确信已经正确考虑到这一点：

$ cat /proc/cmdline 
BOOT_IMAGE=/boot/vmlinuz-4.8.0-27-generic root=UUID=58c66f12-0588-442b-9bb8-1d2dd833efe2 ro quiet splash isolcpus=3,7 irqaffinity=0-2,4-6 vt.handoff=7

重启后，我可以检查一切是否按预期工作。在第一个控制台上运行以下命令：

$ stress -c 24
stress: info: [31717] dispatching hogs: 24 cpu, 0 io, 0 vm, 0 hdd

并且在第二个终端上，使用“ top ”我可以检查我的CPU的使用情况：

top - 18:39:07 up 2 days, 20:48, 18 users,  load average: 23,15, 10,46, 4,53
Tasks: 457 total,  26 running, 431 sleeping,   0 stopped,   0 zombie
%Cpu0  :100,0 us,  0,0 sy,  0,0 ni,  0,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
%Cpu1  : 98,7 us,  1,3 sy,  0,0 ni,  0,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
%Cpu2  : 99,3 us,  0,7 sy,  0,0 ni,  0,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
%Cpu3  :  0,0 us,  0,0 sy,  0,0 ni,100,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
%Cpu4  : 95,7 us,  4,3 sy,  0,0 ni,  0,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
%Cpu5  : 98,0 us,  2,0 sy,  0,0 ni,  0,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
%Cpu6  : 98,7 us,  1,3 sy,  0,0 ni,  0,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
%Cpu7  :  0,0 us,  0,0 sy,  0,0 ni,100,0 id,  0,0 wa,  0,0 hi,  0,0 si,  0,0 st
KiB Mem :  7855176 total,   385736 free,  5891280 used,  1578160 buff/cache
KiB Swap: 15624188 total, 10414520 free,  5209668 used.   626872 avail Mem

第3个CPU和第7个CPU处于空闲状态，而其他6个CPU处于完全忙碌状态。很好。

在接下来的测试中，我将使用一个几乎纯粹处理的小应用程序

它使用两个相同大小的int缓冲区

它逐个读取第一个缓冲区的所有值

每个值都是第二个缓冲区中的随机索引

它读取第二个缓冲区中索引处的值

它将从第二个缓冲区中提取的所有值求和

它对更大的缓冲区执行所有先前的步骤

最后，我会打印自愿和非自愿CPU上下文切换的数量

当我启动它时，我正在研究我的应用程序：

在一个非隔离的CPU上
在一个隔离的CPU上

我通过以下命令行执行它：

$ ./TestCpuset              ### launch on any non-isolated CPU
$ taskset -c 7 ./TestCpuset ### launch on isolated CPU 7

无论在哪个CPU上启动，上下文切换的数量都会从20变成成千上万。

当在单独的CPU上启动时，即使我并行启动了一个"stress -c 24"，上下文切换的数量也几乎保持不变（在10到20之间），看起来非常正常。

但是我的问题是：为什么不是绝对的0呢？当对一个进程进行切换时，是为了用另一个进程来取代它吗？但在我的情况下，并没有其他进程可以替换！

我有一个假设，即“isolcpus”选项会将CPU与任何进程隔离开来（除非给出进程和CPU亲和力，例如使用“taskset”），但不会影响内核任务。然而，我没有找到任何关于此的文档。

我希望能够得到任何帮助，以达到0上下文切换。

顺便提一下，这个问题和我之前打开的另一个问题非常相似：Cannot allocate exclusively a CPU for my process

这是我正在使用的程序代码：

#include <limits.h>
#include <iostream>
#include <unistd.h>
#include <sys/time.h>
#include <sys/resource.h>

const unsigned int BUFFER_SIZE = 4096;

using namespace std;


class TimedSumComputer
{

public:
  TimedSumComputer() :
    sum(0),
    bufferSize(0),
    valueBuffer(0),
    indexBuffer(0)
  {}


public:
  virtual ~TimedSumComputer()
  {
    resetBuffers();
  }


public:
  void init(unsigned int bufferSize)
  {
    this->bufferSize = bufferSize;
    resetBuffers();
    initValueBuffer();
    initIndexBuffer();
  }


private:
  void resetBuffers() 
  {
    delete [] valueBuffer;
    delete [] indexBuffer;
    valueBuffer = 0;
    indexBuffer = 0;
  }


  void initValueBuffer()
  {
    valueBuffer = new unsigned int[bufferSize];
    for (unsigned int i = 0 ; i < bufferSize ; i++)
    {
      valueBuffer[i] = randomUint();
    }
  }


  static unsigned int randomUint()
  {
    int value = rand() % UINT_MAX;
    return value;
  }


protected:
  void initIndexBuffer()
  {
    indexBuffer = new unsigned int[bufferSize];
    for (unsigned int i = 0 ; i < bufferSize ; i++)
    {
      indexBuffer[i] = rand() % bufferSize;
    }
  }


public:
  unsigned int getSum() const
  {
    return sum;
  }


  unsigned int computeTimeInMicroSeconds()
  {
    struct timeval startTime, endTime;

    gettimeofday(&startTime, NULL);
    unsigned int sum = computeSum();
    gettimeofday(&endTime, NULL);

    return ((endTime.tv_sec - startTime.tv_sec) * 1000 * 1000) + (endTime.tv_usec - startTime.tv_usec);
  }


  unsigned int computeSum()
  {
    sum = 0;

    for (unsigned int i = 0 ; i < bufferSize ; i++)
    {
      unsigned int index = indexBuffer[i];
      sum += valueBuffer[index];
    }

    return sum;
  }


protected:
  unsigned int sum;
  unsigned int bufferSize;
  unsigned int * valueBuffer;
  unsigned int * indexBuffer;

};



unsigned int runTestForBufferSize(TimedSumComputer & timedComputer, unsigned int bufferSize)
{
  timedComputer.init(bufferSize);

  unsigned int timeInMicroSec = timedComputer.computeTimeInMicroSeconds();
  cout << "bufferSize = " << bufferSize << " - time (in micro-sec) = " << timeInMicroSec << endl;
  return timedComputer.getSum();
}



void runTest(TimedSumComputer & timedComputer)
{
  unsigned int result = 0;

  for (unsigned int i = 1 ; i < 10 ; i++)
  {
    result += runTestForBufferSize(timedComputer, BUFFER_SIZE * i);
  }

  unsigned int factor = 1;
  for (unsigned int i = 2 ; i <= 6 ; i++)
  {
    factor *= 10;
    result += runTestForBufferSize(timedComputer, BUFFER_SIZE * factor);
  }

  cout << "result = " << result << endl;
}



void printPid()
{
  cout << "###############################" << endl;
  cout << "Pid = " << getpid() << endl;
  cout << "###############################" << endl;
}



void printNbContextSwitch()
{
  struct rusage usage;
  getrusage(RUSAGE_THREAD, &usage);
  cout << "Number of voluntary context switch:   " << usage.ru_nvcsw << endl;
  cout << "Number of involuntary context switch: " << usage.ru_nivcsw << endl;
}



int main()
{
  printPid();

  TimedSumComputer timedComputer;
  runTest(timedComputer);

  printNbContextSwitch();

  return 0;
}

- Philippe MESMEUR

你的数据从哪里来？你是否使用了比机器物理内存更多的内存？我预计，当进程在等待分页操作时被挂起时，访问一个已分页的内存部分将会强制增加上下文切换计数器。 - Dark Falcon

我正在使用的程序只是一个简单的测试程序，它只访问用随机值初始化的缓冲区（参见rand()函数）。 - Philippe MESMEUR

3个回答

3

潜在地，任何系统调用都可能涉及上下文切换。当您访问分页出的内存时，这也可能会增加上下文切换计数。要达到0次上下文切换，您需要强制内核将程序使用的所有内存映射到其地址空间中，并确保您调用的所有系统调用都不涉及上下文切换。我认为在具有RT补丁的内核上可能是可能的，但在标准发行版内核上可能很难实现。

- Robert Baldyga

非常感谢您的回答。我几乎可以确定，在我提供的简单示例（其代码如上所示）中，我的程序使用的所有内存仍然保持映射状态，没有页面被换出。 - Philippe MESMEUR

此外，除了以下几个系统调用： 1）由new/delete引入的 2）getrusage() ??? 3）cout 我自愿几乎没有使用其他系统调用。我可能错了，但是系统调用所涉及的上下文切换记录在“自愿上下文切换”中，但对我来说，主要问题在于“非自愿”的上下文切换。 - Philippe MESMEUR

3

为了那些通过谷歌（像我一样）找到这篇文章的人，/sys/devices/virtual/workqueue/cpumask 控制着内核可以使用 WORK_CPU_UNBOUND（不关心哪个 CPU）队列工作的位置。截至目前，它的掩码与默认情况下 isolcpus 操纵的掩码不同。

一旦我将其更改为不包含我的隔离 CPU，我看到了显著较小（但不是零）数量的上下文切换到我的关键线程。我认为在我的隔离 CPU 上运行的工作必须已经明确请求，例如通过使用 schedule_on_each_cpu。

- talshorer

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Philippe MESMEUR · Accepted Answer

今天，我获得了关于我的问题更多的线索。我意识到我需要深入调查内核调度器中正在发生的事情。我找到了这两个页面：

我在应用程序运行时启用了调度器跟踪。

# sudo bash
# cd /sys/kernel/debug/tracing
# echo 1 > options/function-trace ; echo function_graph > current_tracer ; echo 1 > tracing_on ; echo 0 > tracing_max_latency ; taskset -c 7 [path-to-my-program]/TestCpuset ; echo 0 > tracing_on
# cat trace

由于我的程序在CPU 7上启动（taskset -c 7），因此我必须过滤“trace”输出。

# grep " 7)" trace

我可以搜索过渡，从一个进程到另一个进程：

# grep " 7)" trace | grep "=>"
 ...
 7)  TestCpu-4753  =>  kworker-5866 
 7)  kworker-5866  =>  TestCpu-4753 
 7)  TestCpu-4753  =>   watchdo-26  
 7)   watchdo-26   =>  TestCpu-4753 
 7)  TestCpu-4753  =>  kworker-5866 
 7)  kworker-5866  =>  TestCpu-4753 
 7)  TestCpu-4753  =>  kworker-5866 
 7)  kworker-5866  =>  TestCpu-4753 
 7)  TestCpu-4753  =>  kworker-5866 
 7)  kworker-5866  =>  TestCpu-4753 
 ...

太棒了！看起来我正在跟踪的上下文切换是转换到以下内容：

kworker
watchdog

现在我需要找到：

这些进程/线程究竟是什么？（似乎它们由内核处理）
我能避免它们在我的专用CPU上运行吗？

当然，再次感谢任何帮助 :-P