1周前
[Android稳定性] 第62篇 内核访问与tee共享的内存数据异常造成内存越界
通过trace32分析寄存器信息,对着代码精准找到异常点,发现原来是内存越界的问题导致,并通过限制内存区域大小来屏蔽这个问题。
1月前
[Android稳定性] 第61篇 UFS异常导致卡开机logo
高通平台项目在工厂老化测试中出现卡开机logo的棘手问题,设备无法通过USB或串口获取有效日志,通过强制fulldump分析发现,系统init进程自开机五秒后便持续处于D状态,导致系统无法正常启动。内核堆栈显示进程在等待PG_locked时失败,疑似死锁或关键进程卡死,经进一步排查,平台迅速定位UFS存储异常——UFS设备自开机五秒后未再触发中断。文章详解了如何从核心结构体如ufs_stats、ufs_hba入手,追溯设备树节点至具体驱动,指导工程师在dump文件中精确定位存储异常发生时间及其相关数据。通过系统性分析,为后续UFS问题跟进提供了清晰的技术路径和实际操作指引,展现了严谨的问题排查步骤。
2月前
[linux内存管理] 第032篇 使用trace32分析slab cache
以实际dump为例,文章用trace32深入解析了Linux slab cache的内部逻辑,带你逐层解读kmalloc-64实例中的数据结构,从kmalloc_caches和kmem_cache到per-CPU区与节点node的内存组织和管理特性。
9月前
[Android稳定性] 第047篇 [问题篇] Unexpected kernel BRK exception at EL1
**问题背景**:多款手机在启用移动热点功能后出现死机现象,涉及BUGO19-6212、BUGO19-6235和BUGO19-6210等多个JIRA问题。 **问题现象**:设备在启用热点后崩溃。经过测试,发现启用热点功能会导致设备死机,与预期不符。 **问题分析**:通过分析堆栈信息和汇编代码,初步判断问题为数组越界。寄存器W26的值超出数组最大值,导致数组越界,进而触发BRK异常。 **wlan模块分析**:在wlan模块中,存在两个for循环,重复复制了同一批非indoor信道,导致pcl_len值翻倍,超出数组最大值。 **解决方案**:删除第二个for循环,避免重复复制信道,从而解决数组越界问题。
9月前
[Android稳定性] 第046篇 [方法篇] 如何使用trace32恢复AOP现场?
本文介绍了使用hansei工具解析AOP/RPM及使用trace32恢复AOP现场的方法。首先获取hansei工具,安装依赖库后执行工具,输入相关路径生成文件。然后进行恢复前的准备工作,包括下载T32脚本和准备相关文件。最后,通过执行aop_rpm_load.bat文件,选择正确的cmm文件开始恢复。
9月前
[Android稳定性] 第044篇 [问题篇] Unable to handle kernel write to read-only memory at virtual address
在老化测试中,多台机器出现黑屏问题,主要现象为使用9-11版本时,27台机器中有25台因USB问题导致dump,且问题多出现在使用33瓦充电器时。通过LOG分析,问题出现在45次重启测试中。dmesg日志显示,问题源于内存异常踩踏,具体为操作了空指针地址的结构体成员。 根本原因分析表明,在dwc3_msm模块中,存在一个空指针赋值操作,导致数据写入异常地址。解决方案建议对涉及空指针的代码进行兼容性处理,并在gerrit上提交了相关代码修改。
2025-01-18
[Android稳定性] 第020篇 [方法篇] crash实战:手把手教你使用crash分析内核dump
本文介绍了使用crash工具分析Linux内核崩溃(Kdump)的方法,重点针对手机领域。crash工具在处理大型dump文件时比trace32更加高效,因为它不会占用大量内存资源。文章还探讨了crash工具在恢复任务调用栈、查看局部变量值等方面的实用技巧,以及如何查找访问特定变量的线程。通过crash工具,开发者可以更有效地定位和解决内核崩溃问题,提高问题定位的效率。
2025-01-02
[Android稳定性] 第015篇 [问题篇] Unable to handle kernel NULL pointer dereference
系统出现死机,初步分析定位到问题为内核空指针引用,具体是在focaltech_spi模块的fts_power_usb_notifier_callback函数中。进一步通过trace32恢复现场发现,问题在于wq对象在函数执行过程中被销毁。根本原因是fts_data->ts_workqueue队列在fts_power_usb_notifier_callback执行过程中被销毁。
2024-12-23
[Android稳定性] 第010篇 [问题篇] 数组越界导致的内核panic
服务器打包的daily版本在刷机后出现900E口死机问题。通过分析dmesg日志,发现程序在`fts_set_cur_value`函数处异常终止。进一步使用trace32工具恢复现场,确认是由于`touch_mode`数组越界导致的内存访问错误。该数组最大值被定义为15,但实际使用时传入了100,导致严重异常。