[Android稳定性] 第035篇 [问题篇] 中断风暴触发watchdog bite 7月前查看 评论
[Android稳定性] 第035篇 [问题篇] 中断风暴触发watchdog bite

**问题背景**:系统出现死机现象,且插上屏幕后问题消失。 **问题分析**: 1. **dmesg分析**:发现watchdog被触发,导致系统死机。 2. **堆栈分析**:`dsi_ctrl_hw_cmn_ctrl_reset()`函数卡住,没有正常返回。 3. **中断分析**:系统处于中断风暴状态,`msm_drm`和`dsi_ctrl`模块中断触发频率异常高。 4. **中断号分析**:通过T32工具查找中断号,进一步确定问题根源。 **根本原因**: 某个设备中断(如QtiBus/IPC/CAN)在IRQ handler中未及时退出,导致CPU被中断处理任务占满,无法进行正常调度,最终触发watchdog并导致死机。

[Android稳定性] 第034篇 [问题篇] 进程阻塞触发watchdog bite死机 7月前查看 评论
[Android稳定性] 第034篇 [问题篇] 进程阻塞触发watchdog bite死机

## 问题摘要: 本次老化测试中,设备出现死机问题,经过日志分析,初步判断为 **CPU0 调度器 hang 死** 导致。具体表现为: * **CPU0 定时器更新滞后**:与其他 CPU 相比,CPU0 的定时器 `timer_jiffies` 落后约 20 秒,且大量定时器处于停滞状态,说明 CPU0 的定时器中断处理函数可能未正常执行。 * **高精度定时器未触发**:CPU0 的 `tick_sched_timer` 等高精度定时器 `_softexpires` 值停滞,说明 CPU0 的定时器中断机制未运作,导致系统调度器无法运行,看门狗无法被喂,CPU 卡死。 * **任务调度异常**:大量内核后台任务 `kworker/0:*` 卡在不可中断的 `D` 状态,`ksoftirqd/0` 停止调度,说明内核资源可能无法释放,调度器已崩溃。 * **CPU0 栈分析**:`QtiBus-PROC` 独占 CPU0 运行权,其他任务无法调度,且其调用栈显示卡在 `do_exit` 函数,说明该线程在退出过程中卡死,导致 CPU0 调度器 hang 死。 ## 根本原因: `QtiBus-PROC` 线程在退出过程中卡在了 futex 和 RCU 回调相关路径,导致它阻塞在 CPU0 上不让出 CPU,最终让整个 CPU0 的调度器 hang 死,系统无法喂 watchdog,被重启。