如何理解ARM异常的发生原因?

3

我正在尝试理解我遇到的ARM异常的原因。这经常发生在系统启动过程中,可能会以几种不同的方式出现。

其中最简单的一种是以下情况:

0x8004e810 in ti_sysbios_family_arm_a8_intcps_Hwi_vectors ()
#0  0x8004e810 in ti_sysbios_family_arm_a8_intcps_Hwi_vectors ()
#1  0x80002f04 in ti_sysbios_family_arm_exc_Exception_excHandlerDataAsm(int0_t) ()
at /home/rnd_share/sysbios/bios_6_51_00_15/packages/ti/sysbios/family/arm/exc/Exception_asm_gnu.asm:103
Backtrace stopped: previous frame identical to this frame (corrupt stack?)

r0             0x20000197   536871319
r1             0x20000197   536871319
r2             0x20000197   536871319
r3             0x20000197   536871319
r4             0x20000197   536871319
r5             0x6  6
r6             0x80000024   2147483684
r7             0x80007a0c   2147514892
r8             0x8004f0a8   2147807400
r9             0x80041340   2147750720
r10            0x80040a3c   2147748412
r11            0xffffffff   4294967295
r12            0x20000197   536871319
sp             0x7fffff88   0x7fffff88
lr             0x80002f04   2147495684
pc             0x8004e810   0x8004e810     <ti_sysbios_family_arm_a8_intcps_Hwi_vectors+16>
cpsr           0x20000197   536871319
PC = 8004E810, CPSR = 20000197 (ABORT mode, ARM IRQ dis.)
R0 = 20000197, R1 = 20000197, R2 = 20000197, R3 = 20000197
R4 = 20000197, R5 = 00000006, R6 = 80000024, R7 = 80007A0C
USR: R8 =8004F0A8, R9 =80041340, R10=80040A3C, R11 =FFFFFFFF, R12 =20000197
 R13=80212590, R14=80040A3C
FIQ: R8 =AEE1D6FA, R9 =C07BA930, R10=1B0B137A, R11 =7EC3F1DF, R12 =2000019F
 R13=80065CF8, R14=00000000, SPSR=00000000
SVC: R13=4030CB20, R14=00022071, SPSR=00000000
ABT: R13=7FFFFF88, R14=80002F04, SPSR=20000197
IRQ: R13=F4ADFD8A, R14=80041020, SPSR=8000011F
UND: R13=80085CF8, R14=ED0F7EF1, SPSR=00000000
(gdb) frame 
#0  0x8004e810 in ti_sysbios_family_arm_a8_intcps_Hwi_vectors ()
(gdb) frame 1
#1  0x80002f04 in ti_sysbios_family_arm_exc_Exception_excHandlerDataAsm(int0_t) ()
at /home/rnd_share/sysbios/bios_6_51_00_15/packages/ti/sysbios/family/arm/exc/Exception_asm_gnu.asm:103
103         mrc     p15, #0, r12, c5, c0, #0 @ read DFSR into r12
(gdb) list
98          .func ti_sysbios_family_arm_exc_Exception_excHandlerDataAsm__I
99  
100 ti_sysbios_family_arm_exc_Exception_excHandlerDataAsm__I:
101         stmfd   sp!, {r0-r12}   @ save r4-r12 while we're at it
102 
103         mrc     p15, #0, r12, c5, c0, #0 @ read DFSR into r12
104         stmfd   sp!, {r12}      @ save DFSR
105         mrc     p15, #0, r12, c5, c0, #1 @ read IFSR into r12
106         stmfd   sp!, {r12}      @ save DFSR
107         mrc     p15, #0, r12, c6, c0, #0 @ read DFAR into r12
(gdb) monitor cp15 6 0 0 0 
Reading CP15 register (6,0,0,0 = 0x7FFFFF54)

我的理解是,在第一帧中可以看到正在进行的异常,它试图将寄存器保存到堆栈中:

101 stmfd sp!, {r0-r12} @ 一边保存 r4-r12

但是,在以下位置,堆栈指针不正确:

ABT: R13=7FFFFF88

我不明白两个问题:

  1. 在 ABT 和 IRQ 上下文中,这种 SP 值的原因是什么?
  2. 实际上在第 0 帧中有什么? 换句话说,当 Cortex 在异常处理程序中时,如何对数据异常做出反应?

这个设备通常正常启动,这种情况在10次启动中会发生3次。 它从调试器启动时从未发生过,只有在发布版本中从引导加载程序启动时才会发生。


你的内存出了问题。我怀疑是野指针导致了不同的内存访问模式。R14_SVC(0x22071)是有效的代码吗?你应该尝试使用initcall_debug和其他kconfig值来检查内存问题。 - artless noise
1个回答

0

两周后...

引导程序的过程如下:

  1. 第二阶段引导程序将应用程序加载到内存中

  2. 第二阶段引导程序跳转到应用程序的起始位置。

  3. 进入应用程序的主函数。

结果发现,有时应用程序的静态初始化值在启动的第一步之后具有正确的值,但在第三步时却被破坏了。也就是说,应用程序镜像被破坏了。

在第一步和第二步之间,缓存没有被正确地清除。

在第二阶段引导程序禁用缓存后,问题得到了解决。 现在需要正确地修复它。


你的引导加载程序是否设置了MMU翻译表?你可以在正确的时间点刷新内存,而不是禁用缓存。 - harper
@harper,是的,它确实存在,但没有地址转换,只有翻译表中的条目(我的意思是地址转换始终是x到x)。禁用缓存只是某种概念验证。现在我在引导加载程序中刷新缓存,在镜像复制过程结束时。看起来问题已经完全解决了。 - wiesniak
当您在CP15中设置MMU表地址时,该表将从SDRAM中读取。如果此时缓存未被清除,则可能会出现无效的表项。 - harper

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接