Android稳定性 - 云栖梦泽

[Android稳定性] 第029篇 [问题篇] 数组越界导致Unexpected kernel BRK exception at EL1

在高低温测试中，两例设备死机问题指向charger模块。分析日志发现，问题源于`status_change_work`函数中的数组越界，可能与bitflip问题相关。解决方案建议增加兼容性代码，确保`cyclecount`值在0到800之间，防止异常值导致数组越界。

[Android稳定性] 第028篇 [问题篇] 可靠性滚筒测试中高概率自动关机问题记录

委外实验室AS2/AS4/AS5在滚筒测试中出现自动关机问题，惠州实验室AS1、AS3无此现象。分析发现LDO7触发OCP保护导致异常。验证方案将LDO7的OCP设置从LPM模式改为NPM模式，测试结果显示问题解决。

[Android稳定性] 第027篇 [问题篇] 数组越界导致Unexpected kernel BRK exception at EL1

在正常测试过程中，手机电池温度达到35度时，手机进入dump状态。问题分析显示，在`pd_policy_manager`模块的`usbpd_pm_workfunc`函数中出现了内核崩溃。进一步分析发现，`usbpd_pm_sm`函数在处理状态转换时，由于状态数组`pm_str`未包含`PD_PM_STATE_FC2_HOLD`，导致数组越界访问，引发崩溃。解决方案建议在`pm_str`数组中添加`PD_PM_STATE_FC2_HOLD`状态。

[Android稳定性] 第026篇 [方法篇] 在windows平台安装Linux ramdump parser工具

本文介绍了在Windows环境下安装Python工具、获取Linux ramdump parser工具、编写解析脚本、编译工具链以及增加local_setting.py配置文件的过程。首先，安装Python并使用pip安装必要的库。接着，获取开源和专有的Linux ramdump parser工具并进行整合。然后，编写解析脚本并运行。此外，还需下载并整合gdb、nm和objdump工具链，最后在指定目录下增加local_setting.py文件以指定工具链路径。

[Android稳定性] 第025篇 [问题篇] KASAN slab-out-of-bounds内存越界问题

本文分析了在运行kasan版本corgi: 4967550时出现的死机问题，问题概率为4/7。通过分析dmesg日志，确定问题类型为slab-out-of-bounds，问题函数为usbpd_mi_vdm_received_cb，越界地址为ffffff808d6c0a60。通过trace32工具恢复现场，定位到死机原因为for循环中的数组越界访问。最终，通过修改循环次数为rx_msg->data_len/sizeof(u32)，成功解决问题。

[Android稳定性] 第024篇 [方法篇] RCU Stall问题如何进行分析？

RCU（读-复制-更新）是一种针对多核、多线程环境的内存同步机制，旨在解决读写并发问题，特别适用于读多写少的场景。RCU Stall是指RCU子系统检测到的问题，如宽限期未结束、回调堆积或调度延迟等，可能导致系统性能下降。分析RCU Stall的方法包括检查内核日志、任务栈回溯、长时间运行的任务、锁和资源争用等。实例中，通过dmesg日志分析和打开panic_on_rcu_stall来复现问题，并通过串口输出进程信息进行深入诊断。

[Android稳定性] 第023篇 [问题篇] printk非空的非法指针参数导致的spinlock死锁引起Non Secure WDT

本文分析了Linux内核中因`Non secure wdt`导致的死机问题。通过分析ramdump，发现所有CPU都在等待一个spin lock，且锁的持有者是`kworker/u17:12`。进一步分析发现，该进程在获取锁后出现了data abort，并在异常处理流程中再次尝试获取锁，导致死锁。根本原因是`nvt_update_firmware`函数中使用了未初始化的指针作为`printk`的参数，导致打印异常。解决方案是将`kmalloc`改为`kzalloc`，以确保内存被清零。实验验证了当`printk`的参数为非法指针时，会导致死锁。

[Android稳定性] 第022篇 [原理篇] kernel panic的死亡信息的由来

本文主要介绍了 Linux 内核稳定性问题中的“kernel panic”现象，并深入分析了其产生的原因、异常处理流程以及如何处理。文章以一个具体的异常案例为切入点，详细解释了异常信息的解读、异常向量表的查找、异常处理函数的执行过程，并最终揭示了 panic 报错信息的来源。文章还介绍了 oops_enter、console_verbose、__die、dump_backtrace 等关键函数的功能，以及 panic_on_oops 内核参数对 panic 流程的影响。通过本文的学习，读者可以更好地理解内核 panic 的产生机制，并掌握相应的调试方法。

[Android稳定性] 第021篇 [问题篇] Kernel panic - not syncing: stack-protector: Kernel stack is corrupted

深入剖析了一起由内核函数mi_binder_wait4_hook触发的“Kernel stack is corrupted”内核崩溃问题。文章通过详细的dmesg日志分析、ARM汇编栈帧解析和Trace32进程栈回溯，复现了故障发生的关键环节，定位到x29栈帧指针因bitflip问题发生异常，导致栈保护机制触发__stack_chk_fail并panic。内容不仅梳理了栈帧的典型入栈流程及关键寄存器的存储关系，还精确描述了如何通过异常PC偏移与寄存器快照还原出崩溃前后的调用链路，展示了问题定位的扎实技术细节。最后，通过二进制对比，明确指出bitflip对函数栈帧完整性的破坏方式，为类似内核异常

2026 年 7 月
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31