[Android稳定性] 第038篇 [问题篇] 在workqueue中取消自身导致的workqueue自锁 7月前查看 评论
[Android稳定性] 第038篇 [问题篇] 在workqueue中取消自身导致的workqueue自锁

### 一、问题背景 在441#-AS1-KKX_0411版本高低温运行测试后,出现工模卡死现象,需手动组合键进入dump。日志分析显示,卡死时刻多个线程处于D状态,包括batterysecret、charge_logger、xm_charge_work和fsa4480_usbc_analog_work_fn等。这些线程都在等待同一个IIO mutex,导致锁争用。 ### 二、根本原因 reverse_charge_monitor_workfunc函数在执行过程中,调用了iio_write_channel_raw函数,该函数持有iio_dev的mlock锁。随后,该函数又调用了smblib_handle_reverse_charge_event函数,该函数中包含cancel_delayed_work_sync(&self)操作,导致当前work无法退出,陷入死锁状态。 ### 三、解决方案 1. 修改reverse_charge_monitor_workfunc函数,将smblib_handle_reverse_charge_event函数的调用移至mutex_unlock(iio_dev->mlock)之后。 2. 考虑使用其他同步机制,如信号量或事件,避免锁争用。 ### 四、总结 通过分析日志和追踪源码,发现卡死现象是由reverse_charge_monitor_workfunc函数中的死锁导致的。通过修改函数调用顺序和使用其他同步机制,可以解决此问题。

[Android稳定性] 第033篇 [问题篇] suspend时shedule io操作导致线程阻塞引发死机 7月前查看 1 条
[Android稳定性] 第033篇 [问题篇] suspend时shedule io操作导致线程阻塞引发死机

## 一、问题背景 工厂BLMMI工站的一台机器出现死机,进入dump状态。 ## 二、问题分析 ### 2.1 初步定位 通过分析dmesg日志,确定死机原因为watchdog bite,CPU0发生。 ### 2.2 定位卡死线程 分析日志发现系统在挂起后未能正确resume,导致watchdog未在20秒内被喂狗。 ### 2.3 查找阻塞的进程 通过查看tasks.txt,发现irq/141-pmic_pw线程卡在不可中断睡眠状态,推测为卡住的线程。 ## 三、根本原因分析 分析栈回溯,发现irq/141-pmic_pw线程在挂起阶段执行mtdoops dump操作时,底层block device已挂起,导致线程卡死,无法完成resume。 ## 四、解决方案 1. 在pwrkey_long_press_irq_event中仅设置标志,延迟执行dump操作。 2. 在系统resume后通过workqueue异步触发dump。 ## 五、效果 避免挂起阶段执行阻塞的dump操作,解决suspend卡死问题。 ## 六、测试建议 1. 检查按电源键时是否出现defer dump日志。 2. 检查挂起后唤醒是否出现Executing deferred mtdoops dump after resume日志。 3. 观察是否还会触发watchdog bite。

[Android稳定性] 第036篇 [原理篇] 理解中断上下文、进程上下文以及进程调度之间的关系 7月前查看 评论
[Android稳定性] 第036篇 [原理篇] 理解中断上下文、进程上下文以及进程调度之间的关系

本文深入探讨了进程上下文、中断上下文以及 Linux 进程调度器(如 CFS)的概念和关联性。进程上下文是内核代码为特定进程执行任务的环境,能被调度、休眠和参与 CFS 调度。中断上下文是内核响应中断时运行的代码环境,不能睡眠,且不直接参与调度。SoftIRQ 和 Tasklet 作为中间层,处理中断后的任务。三者之间的关联性体现在中断上下文可以触发调度事件,而进程上下文可以主动调用调度器。文中还列举了在中断上下文中不能调用的函数或行为,并强调了中断上下文中禁止使用可能引起睡眠或阻塞的函数,以避免系统问题。

[Android稳定性] 第037篇 [问题篇] vote函数持锁造成经典的AB-BA死锁 7月前查看 评论
[Android稳定性] 第037篇 [问题篇] vote函数持锁造成经典的AB-BA死锁

您好,我是一位专业的100字左右文章摘要总结写手。根据您提供的问题背景和日志分析,本文将探讨一个在Android设备老化测试过程中遇到的问题。具体来说,当使用组合键手动进入dump状态时,设备卡在了某些进程上,无法继续执行。通过分析dmesg日志,我们发现多个进程处于D状态,且存在锁的竞争关系。最终,我们确定这是一个典型的AB-BA锁死锁问题。