10月前
[Android稳定性] 第033篇 [问题篇] suspend时shedule io操作导致线程阻塞引发死机
工厂BLMMI工站一台设备死机进dump,经dmesg与任务栈分析,确认是QCOM Apps Watchdog在约67.7秒触发bark/bite,而系统最后一次喂狗停在47.7秒,中间超过20秒未喂狗。期间系统处于s2idle挂起流程中,未正常resume,定时器与调度未运行,导致watchdog无法被喂。 进一步从timer list看到,当前时刻并没有到任何定时器触发点,印证了系统在挂起状态未被唤醒。通过tasks.txt定位到关键卡死线程为......
10月前
[Android稳定性] 第036篇 [原理篇] 理解中断上下文、进程上下文以及进程调度之间的关系
本文深入探讨了进程上下文、中断上下文以及 Linux 进程调度器(如 CFS)的概念和关联性。进程上下文是内核代码为特定进程执行任务的环境,能被调度、休眠和参与 CFS 调度。中断上下文是内核响应中断时运行的代码环境,不能睡眠,且不直接参与调度。SoftIRQ 和 Tasklet 作为中间层,处理中断后的任务。三者之间的关联性体现在中断上下文可以触发调度事件,而进程上下文可以主动调用调度器。文中还列举了在中断上下文中不能调用的函数或行为,并强调了中断上下文中禁止使用可能引起睡眠或阻塞的函数,以避免系统问题。
10月前
[Android稳定性] 第037篇 [问题篇] vote函数持锁造成经典的AB-BA死锁
您好,我是一位专业的100字左右文章摘要总结写手。根据您提供的问题背景和日志分析,本文将探讨一个在Android设备老化测试过程中遇到的问题。具体来说,当使用组合键手动进入dump状态时,设备卡在了某些进程上,无法继续执行。通过分析dmesg日志,我们发现多个进程处于D状态,且存在锁的竞争关系。最终,我们确定这是一个典型的AB-BA锁死锁问题。
10月前
[Android稳定性] 第035篇 [问题篇] 中断风暴触发watchdog bite
定位到系统死机的根本原因是显示子系统中断风暴,硬件中断msm_drm和dsi_ctrl频繁触发,导致CPU长时间被中断占用,内核软中断和线程无法调度。关键函数dsi_ctrl_hw_cmn_ctrl_reset卡死,形成软锁死,最终触发watchdog致使系统崩溃。
10月前
[Android稳定性] 第032篇 [原理篇] 高通平台 OCP & 组合键 Warm Reset 机制详解
本文深入探讨了Qualcomm平台Android系统中两种底层重启方式:OCP(过电流保护)触发的Warm Reset和通过组合键+Timer配置触发的Warm Reset。OCP是一种硬件保护机制,能监测供电轨是否过电流并执行Warm Reset。该重启不经过软件,重启后无last_kmsg记录。组合键+Timer配置则通过PMIC硬件监控按键状态,独立于软件,配置在Android启动后仍生效。两种重启方式均适合用于调试。
10月前
[Android稳定性] 第031篇 [原理篇] Linux内核内存检测工具KASAN
Kasan(Kernel Address Sanitizer)是一个动态检测内存错误的工具,主要功能是检查内存越界访问和使用已释放的内存等问题。Kasan集成在Linux内核中,随Linux内核代码一起发布,并由内核社区维护和发展。在Android内核开发中,Android包括内核地址排错程序(KASan)。KASan是内核与编译时修改的组合,形成了一个插桩系统,可以实现更简单的bug发现和根本原因分析。KASan可以检测内核中许多类型的内存违规行为,包括堆栈、堆和全局变量中的出界读取和写入操作,并可检测释放后再使用和双重释放错误。
10月前
[Android稳定性] 第030篇 [问题篇] I2C bus hang 导致锁线程阻塞导致卡死
本文分析了测试过程中出现的ANR问题,通过分析bugreport日志,发现大量内核线程卡在“不可中断睡眠”状态,表明线程正在等待I/O操作。进一步分析发现,问题可能出在电池/充电控制相关驱动上,因为涉及I²C通信和电源管理的模块出现异常。此外,fg_read_volt函数在I²C读失败后,会尝试重试,但可能因为互斥锁或I2C总线问题导致永久阻塞,进而引发系统内多个线程进入D状态。根本原因可能是I²C传输超时导致regmap_raw_read函数卡住或失败,进而导致fg_read_word和fg_read_volt函数卡住或多次失败,最终引发线程风暴。可能的原因包括硬件层面的I²C总线锁死、Fuel Gauge芯片异常、电池连接问题,以及软件层面的I²C驱动问题、多线程并发访问问题、I²C错误处理问题等。
11月前
[Android稳定性] 第029篇 [问题篇] 数组越界导致Unexpected kernel BRK exception at EL1
在高低温测试中,两例设备死机问题指向charger模块。分析日志发现,问题源于`status_change_work`函数中的数组越界,可能与bitflip问题相关。解决方案建议增加兼容性代码,确保`cyclecount`值在0到800之间,防止异常值导致数组越界。
11月前
[Android稳定性] 第028篇 [问题篇] 可靠性滚筒测试中高概率自动关机问题记录
委外实验室AS2/AS4/AS5在滚筒测试中出现自动关机问题,惠州实验室AS1、AS3无此现象。分析发现LDO7触发OCP保护导致异常。验证方案将LDO7的OCP设置从LPM模式改为NPM模式,测试结果显示问题解决。