Linux内核编程:尝试获取vm_area_struct->vm_start导致内核崩溃

4

我需要完成一项学校作业,需要使用系统调用来确定系统上进程的大小。我的代码如下:

...
struct task_struct *p;
struct vm_area_struct *v;
struct mm_struct *m;
read_lock(&tasklist_lock);
for_each_process(p) {
    printk("%ld\n", p->pid);
    m = p->mm;
    v = m->mmap;
    long start = v->vm_start;
    printk("vm_start is %ld\n", start);
}
read_unlock(&tasklist_lock);
...

当我运行一个调用该系统调用的用户级程序时,我得到的输出如下:
1
vm_start为134512640
2
EIP: 0073:[<0806e352>] CPU: 0 未污染 ESP: 007b:0f7ecf04 EFLAGS: 00010246 未污染
EAX: 00000000 EBX: 0fc587c0 ECX: 081fbb58 EDX: 00000000
ESI: bf88efe0 EDI: 0f482284 EBP: 0f7ecf10 DS: 007b ES: 007b
081f9bc0: [<08069ae8>] show_regs+0xb4/0xb9
081f9bec: [<080587ac>] segv+0x225/0x23d
081f9c8c: [<08058582>] segv_handler+0x4f/0x54
081f9cac: [<08067453>] sig_handler_common_skas+0xb7/0xd4
081f9cd4: [<08064748>] sig_handler+0x34/0x44
081f9cec: [<080648b5>] handle_signal+0x4c/0x7a
081f9d0c: [<08066227>] hard_handler+0xf/0x14
081f9d1c: [<00776420>] 0x776420


内核崩溃 - 不同步: 内核模式故障,地址为0x0,ip为0x806e352


EIP: 0073:[<400ea0f2>] CPU: 0 未污染 ESP: 007b:bf88ef9c EFLAGS: 00000246 未污染
EAX: ffffffda EBX: 00000000 ECX: bf88efc8 EDX: 080483c8
ESI: 00000000 EDI: bf88efe0 EBP: bf88f038 DS: 007b ES: 007b
081f9b28: [<08069ae8>] show_regs+0xb4/0xb9
081f9b54: [<08058a1a>] panic_exit+0x25/0x3f
081f9b68: [<08084f54>] notifier_call_chain+0x21/0x46
081f9b88: [<08084fef>] __atomic_notifier_call_chain+0x17/0x19
081f9ba4: [<08085006>] atomic_notifier_call_chain+0x15/0x17
081f9bc0: [<0807039a>] panic+0x52/0xd8
081f9be0: [<080587ba>] segv+0x233/0x23d
081f9c8c: [<08058582>] segv_handler+0x4f/0x54
081f9cac: [<08067453>] sig_handler_common_skas+0xb7/0xd4
081f9cd4: [<08064748>] sig_handler+0x34/0x44
081f9cec: [<080648b5>] handle_signal+0x4c/0x7a
081f9d0c: [<08066227>] hard_handler+0xf/0x14
081f9d1c: [<00776420>] 0x776420

第一个进程(pid = 1)给了我vm_start,没有任何问题,但是当我尝试访问第二个进程时,内核崩溃了。有人能告诉我出了什么问题,也许如何修复?非常感谢!

(对于糟糕的格式很抱歉....)

编辑:这是在uml环境下的Fedora 2.6核心中完成的。

4个回答

5

一些内核线程可能没有填写mm - 检查p->mm是否为NULL


2

修改了代码以检查空指针:

m = p->mm;
if (m != 0) {
    v = m->mmap;
    if (v != 0) {
        long start = v->vm_start;
        printk("vm_start is %ld\n", start);
    }
}

1
这是错误的方法——如果进程的内存页表正在被修改,会发生什么?因此,是的,mm 可能不为 null,但是 vm_start 值正在被另一个 CPU 修改吗?在 SMP 场景下,所有 CPU 可以同时执行内核的任何部分。因此,在访问像进程页表这样的共享内存资源时,您需要在安全读取之前应用信号量锁。 - Peter Teoh

1
所有与进程相关的信息都可以在用户空间级别的/proc文件系统中找到。在内核中,这些信息是通过fs/proc/*.c生成的。

http://lxr.linux.no/linux+v3.2.4/fs/proc/

看一看文件task_mmu.c,它打印出了所有的vm_start信息,你会发现所有对vm_start字段的处理都需要锁定mmap_sem:
           down_read(&mm->mmap_sem);
            for (vma = mm->mmap; vma; vma = vma->vm_next) {
                    clear_refs_walk.private = vma;
...
                    walk_page_range(vma->vm_start, vma->vm_end,
                                    &clear_refs_walk);

1

对于内核线程,mm将为null。因此,每当您读取mm时,请按以下方式进行。

    down_read(&p->mm->mmap_sem)
          if(mm) {
                 /* read the contents of mm*/
          }
    up_read(&p->mm->mmap_sem)

此外,您也可以使用get_task_mm()。使用get_task_mm(),您无需获取锁。以下是使用方法:

   struct mm_struct *mm;
   mm = get_task_mm(p);
   if (mm) {
           /* read the mm contents */
   }

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接