子进程仅在出现SIGBUS错误时不生成核心转储文件并成为僵尸进程。

3

我的子进程正在尝试访问PCI地址空间。大部分情况下它都能正常工作。

但是,有时候子进程会陷入僵尸状态。dmesg日志显示以下总线错误信息。

[  501.134156] Caused by (from MCSR=10008): Bus - Read Data Bus Error
[  501.134169] Oops: Machine check, sig: 7 [#1]

在这种情况下没有产生核心文件。
[Linux:/]$ ps -axl | grep tes1
4     0  6805 32495  20   0      0     0 exit   Zl   ?  0:05 [test1] <defunct>
[Linux:/]$ 

子进程产生SIGSEGV错误时会生成核心文件。因此,我认为这与权限/ulimit设置无关。

有人能帮我理解为什么在这种情况下没有生成核心文件吗?

Child Process:
--------------

[Linux:/]$ cat /proc/6805/status
Name:   test1
State:  Z (zombie)
Tgid:   6805
Pid:    6805
PPid:   32495
TracerPid:  0
Uid:    0   0   0   0
Gid:    0   0   0   0
FDSize: 0
Groups: 
Threads:    2
SigQ:   18/13007
SigPnd: 0000000002000000
ShdPnd: 0000000000000000
SigBlk: 0000000000000000
SigIgn: 0000000000001006
SigCgt: 0000000182000200
CapInh: 0000000000000000
CapPrm: 0000001fffffffff
CapEff: 0000001fffffffff
CapBnd: 0000001fffffffff
Seccomp:    0
Cpus_allowed:   3
Cpus_allowed_list:  0-1
voluntary_ctxt_switches:    8998
nonvoluntary_ctxt_switches: 857

   Stack:
   -------

[Linux:/]$ cat /proc/6805/stack
[<00000000>]    (nil)
[<c0008640>] __switch_to+0xc0/0x160
[<c004b4f4>] do_exit+0x5d4/0xa70
[<c000c694>] die+0x224/0x310
[<c000ce44>] machine_check_exception+0x124/0x1e0
[<c00123bc>] ret_from_mcheck_exc+0x0/0x14c
[Linux:/]$ 


Parent Process:
---------------
[Linux:/]$ cat /proc/32495/status
Name:   test
State:  S (sleeping)
Tgid:   32495
Pid:    32495
PPid:   21911
TracerPid:  0
Uid:    0   0   0   0
Gid:    0   0   0   0
FDSize: 256
Groups: 
VmPeak:     4820 kB
VmSize:     4820 kB
VmLck:         0 kB
VmPin:         0 kB
VmHWM:      2548 kB
VmRSS:      2548 kB
VmData:     1284 kB
VmStk:       132 kB
VmExe:       900 kB
VmLib:      1976 kB
VmPTE:        24 kB
VmSwap:        0 kB
Threads:    1
SigQ:   19/13007
SigPnd: 0000000000000000
ShdPnd: 0000000000000000
SigBlk: 0000000000010000
SigIgn: 0000000000001006
SigCgt: 0000000043816ef9
CapInh: 0000000000000000
CapPrm: 0000001fffffffff
CapEff: 0000001fffffffff
CapBnd: 0000001fffffffff
Seccomp:    0
Cpus_allowed:   3
Cpus_allowed_list:  0-1
voluntary_ctxt_switches:    274
nonvoluntary_ctxt_switches: 145
[Linux:/]$ 

我假设你已经检查了代码,看看在读取失败后是否有意或无意地退出。 假设父进程仍然存活,您能否等待子进程并读取退出状态和返回代码? - Ram
父进程是一个shell脚本文件,它启动子进程并等待其PID。 - Siva Kumar
父进程不知道子进程的SIGBUS崩溃,并且仍在等待其PID。当子进程尝试从其中一个PCI设备寄存器中读取时,会收到SIGBUS。我没有退出这个子进程,它在读取失败后立即进入僵尸状态。 - Siva Kumar
我理解PCI硬件映射到该地址没有响应。因此,内核(仅限内核)处理它们是合适的。它们不会传播到用户级别,因为它们不是软件故障。由于这不是软件故障,我们不会得到核心转储(无论是内核空间还是用户空间)。 - Siva Kumar
1个回答

0

我知道被映射的PCI硬件没有响应。因此,只有内核才能处理错误。

这个错误不会传播到用户级别,因为这不是软件故障。因此,我们不会得到核心转储(无论是内核空间还是用户空间),因为这不是软件故障。

内核中的机器检查异常处理程序告诉我们硬件故障是什么,以及与之相关的地址/数据(取决于原因)- 需要从硬件角度进一步调查。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接