2024-12-18
[Android稳定性] 第007篇 [问题篇] 中断风暴导致panic
问题摘要:系统日志显示irq 193存在异常,其action为0,表明中断未被注册,导致中断被送至`handle_bad_irq`处理。经查询,该中断对应gpio 93,且在设备树中该gpio被用于wusb3801的中断和复位功能。去除相关配置后,系统恢复正常。
2024-12-18
[Android稳定性] 第006篇 [问题篇] hungtask causing panic-死锁
本文讨论了一个系统问题现象,通过分析日志文件发现一个进程因等待锁而被阻塞120秒。通过使用`tace32`工具跟踪调用栈,发现存在一个三方的死锁情况,涉及进程`2848_9`、`crtc_commit:160`、`vendor.qti.came`和`kworker/u16:7`。文章详细展示了锁的持有者和调用栈信息,但未提供具体的解决方法。
2024-12-18
[Android稳定性] 第003篇 [原理篇] mtdoops的原理介绍
**mtdoops简介与原理总结** mtdoops是一种将系统崩溃时的日志信息保存到MTD(Memory Technology Device)设备中的机制,用于在系统panic时捕获关键信息。它利用MTD子系统,将崩溃日志转存到非易失存储器中,便于后续问题分析。mtdoops与其他捕获panic的方式(如ramoops和kdump)相比,具有特定优势,但需依赖MTD设备和相关配置。 **核心内容摘要:** - mtdoops通过在内核中注册捕获panic或oops,将日志信息保存到MTD设备。 - 需要在内核defconfig中启用相关配置,并在设备树中预留存储空间。 - 通过cmdline动态更新,确保在系统启动时正确配置mtdoops。 - 功能验证包括开机初始化log检查、cmdline确认及重启测试抓取log。 - offline_log机制可触发mtdoops日志抓取,便于问题诊断。
2024-12-18
[Android稳定性] 第005篇 [问题篇] 原子状态调度引起死机
本文讨论了在多核系统中因锁使用不当导致的死机异常问题。作者通过两个案例说明了当在原子状态下执行调度命令时会出现BUG,并分析了原因,指出使用全局变量来控制加解锁操作是多此一举且易出错的。文章强调应正确使用锁来保护临界区,避免使用全局变量来控制锁状态,以防止并发执行时的问题。
2024-12-18
[Android稳定性] 第004篇 [原理篇] minidump的原理介绍
Minidump是一种在系统崩溃时,将关键内存区域加密后保存至RAM或EMMC分区的机制,以便后续调试分析。文章详细解析了minidump的流程:系统各子模块会在内存映射表注册,崩溃时boot子系统通过检测特定寄存器(如TCSR寄存器)判断是否进入minidump流程,随后将内核日志、logcat及安全区域日志等关键区块存入特定分区。文中通过流程图、代码示例和寄存器地址详解,剖析了从检测寄存器值,到执行XBLRamDumpMain写入dump的完整过程,并指出通过简单配置可实现最小化、定制化的日志保存,极大提升了问题定位的效率。此外,文章特别强调小米定制适配方案,仅保留关键日志区,兼顾调试需求
2024-12-18
[Android稳定性] 第002篇 [原理篇] subsystem ramdump的原理介绍
本文介绍了SSR(子系统重启)功能,它是高通的一项特性,允许在子系统崩溃时重启该子系统而不影响整个系统。文章还详细说明了如何启用SSR、抓取子系统RAM dump日志,并介绍了小米对这一功能的改造,即将日志分类整理。此外,文章提供了制造子系统崩溃的指令方法和测试用例,以及如何查看生成的RAM dump日志。