[Android稳定性] 第009篇 [问题篇] 数组越界导致的内核panic 8月前查看 评论
[Android稳定性] 第009篇 [问题篇] 数组越界导致的内核panic

**问题现象**: 部分机器插着 USB 后出现死机。 **问题分析**: 通过 `dmesg` 和 `trace32` 分析,发现死机原因是 `power_operation_mode_show` 函数中 `typec_port` 结构体的 `pwr_opmode` 成员值错误(为负数),导致数组越界。 **解决方案**: 更新 charger 模块,修复对 `pwr_opmode` 的误判,确保其值为正数,避免数组越界。 **总结**: 本次问题是由 `typec_port` 结构体的 `pwr_opmode` 成员值错误导致,通过分析定位问题,并更新 charger 模块修复了问题。

[Android稳定性] 第008篇 [原理篇] 动态设置kernel cmdline 8月前查看 评论
[Android稳定性] 第008篇 [原理篇] 动态设置kernel cmdline

本文介绍了一种在fastboot模式下动态修改内核参数的方法,无需重新打包。首先,通过扩展fastboot oem指令,接收输入的内核参数并写入到devinfo分区中。然后,在更新kernel cmdline时,将保存的内核参数添加到cmdline中。实验测试显示,该方案可以成功修改内核参数,并永久生效。代码更新后,支持设置、追加和清除模式,方便用户根据需求进行操作。

[Android稳定性] 第006篇 [问题篇] hungtask causing panic-死锁 8月前查看 评论
[Android稳定性] 第006篇 [问题篇] hungtask causing panic-死锁

本文讨论了一个系统问题现象,通过分析日志文件发现一个进程因等待锁而被阻塞120秒。通过使用`tace32`工具跟踪调用栈,发现存在一个三方的死锁情况,涉及进程`2848_9`、`crtc_commit:160`、`vendor.qti.came`和`kworker/u16:7`。文章详细展示了锁的持有者和调用栈信息,但未提供具体的解决方法。

[Android稳定性] 第003篇 [原理篇] mtdoops的原理介绍 8月前查看 评论
[Android稳定性] 第003篇 [原理篇] mtdoops的原理介绍

**mtdoops简介与原理总结** mtdoops是一种将系统崩溃时的日志信息保存到MTD(Memory Technology Device)设备中的机制,用于在系统panic时捕获关键信息。它利用MTD子系统,将崩溃日志转存到非易失存储器中,便于后续问题分析。mtdoops与其他捕获panic的方式(如ramoops和kdump)相比,具有特定优势,但需依赖MTD设备和相关配置。 **核心内容摘要:** - mtdoops通过在内核中注册捕获panic或oops,将日志信息保存到MTD设备。 - 需要在内核defconfig中启用相关配置,并在设备树中预留存储空间。 - 通过cmdline动态更新,确保在系统启动时正确配置mtdoops。 - 功能验证包括开机初始化log检查、cmdline确认及重启测试抓取log。 - offline_log机制可触发mtdoops日志抓取,便于问题诊断。

[Android稳定性] 第005篇 [问题篇] 原子状态调度引起死机 8月前查看 评论
[Android稳定性] 第005篇 [问题篇] 原子状态调度引起死机

本文讨论了在多核系统中因锁使用不当导致的死机异常问题。作者通过两个案例说明了当在原子状态下执行调度命令时会出现BUG,并分析了原因,指出使用全局变量来控制加解锁操作是多此一举且易出错的。文章强调应正确使用锁来保护临界区,避免使用全局变量来控制锁状态,以防止并发执行时的问题。

[Android稳定性] 第004篇 [原理篇] minidump的原理介绍 8月前查看 评论
[Android稳定性] 第004篇 [原理篇] minidump的原理介绍

**minidump** 是一种用于保存系统崩溃信息的机制。当系统发生崩溃时,boot subsystem 会加密并保存注册过的 memory 信息到 RAM EMMC 分区。 **流程**: 1. 开机时,内存中会为 minidump 保留一部分空间,用于存储 kernel log、logcat 和 tz_log。 2. 如果手机触发 dump,在第二次开机时,boot subsystem 会读取 TCSR 寄存器中的 minidump 模式标志。 3. 如果启用 minidump,boot subsystem 会读取 kmsg 和 logcat log,并将其写入 minidump 分区。 4. 开机后,可以使用 dd 指令导出 minidump 分区,并使用 ultraedit 查看 log。 **验证方法**: 1. 将 minidump 设置为 emmc 模式。 2. 触发 dump。 3. 导出 minidump 分区并查看 log。 **总结**: minidump 是一种有效的系统崩溃信息保存机制,可以帮助开发者快速定位问题。

[Android稳定性] 第002篇 [原理篇] subsystem ramdump的原理介绍 8月前查看 评论
[Android稳定性] 第002篇 [原理篇] subsystem ramdump的原理介绍

本文介绍了SSR(子系统重启)功能,它是高通的一项特性,允许在子系统崩溃时重启该子系统而不影响整个系统。文章还详细说明了如何启用SSR、抓取子系统RAM dump日志,并介绍了小米对这一功能的改造,即将日志分类整理。此外,文章提供了制造子系统崩溃的指令方法和测试用例,以及如何查看生成的RAM dump日志。

[Android稳定性] 第001篇 [方法篇] 高通Android平台稳定性分析介绍 8月前查看 评论
[Android稳定性] 第001篇 [方法篇] 高通Android平台稳定性分析介绍

本文主要介绍了Linux kernel crash分析的基础知识点,包括高通pmic的几种复位类型、解析dump的工具、Linux ramdump parser的使用、TRACE32工具的应用,以及系统异常的分类及原因。作者详细阐述了每种复位类型的特点和适用场景,列举了多种解析dump的工具及其输出,并通过图表和图片展示了Linux ramdump parser和TRACE32的使用方法。同时,文章还简要介绍了系统异常的分类及原因,为研发人员提供了解决底层稳定性问题的参考。

[Android稳定性] 第043篇 [问题篇] Unable to handle kernel NULL pointer dereference at virtual address 9月前查看 评论
[Android稳定性] 第043篇 [问题篇] Unable to handle kernel NULL pointer dereference at virtual address

在测试版本V816.0.24.8.26.UGUCNXM的稳定版挂测中,出现了大量的空指针引用错误。通过离线解析工具分析dump文件,发现问题的核心在于对NULL指针的引用。具体表现为在`mutex_lock`函数中尝试对一个来自`iocb->ki_filp->private_data`的NULL变量加锁,而这个变量是从`struct file`结构体中获取的。进一步检查发现,这与`/proc/hwinfo`节点有关,当尝试读取这个节点时,会导致手机死机。此节点是早期指纹需求所创建,目前已无实际用途,因此解决方案建议移除该节点。