[Android稳定性] 第030篇 [问题篇] I2C bus hang 导致锁线程阻塞导致卡死 10月前 评论
[Android稳定性] 第030篇 [问题篇] I2C bus hang 导致锁线程阻塞导致卡死

本文分析了测试过程中出现的ANR问题,通过分析bugreport日志,发现大量内核线程卡在“不可中断睡眠”状态,表明线程正在等待I/O操作。进一步分析发现,问题可能出在电池/充电控制相关驱动上,因为涉及I²C通信和电源管理的模块出现异常。此外,fg_read_volt函数在I²C读失败后,会尝试重试,但可能因为互斥锁或I2C总线问题导致永久阻塞,进而引发系统内多个线程进入D状态。根本原因可能是I²C传输超时导致regmap_raw_read函数卡住或失败,进而导致fg_read_word和fg_read_volt函数卡住或多次失败,最终引发线程风暴。可能的原因包括硬件层面的I²C总线锁死、Fuel Gauge芯片异常、电池连接问题,以及软件层面的I²C驱动问题、多线程并发访问问题、I²C错误处理问题等。

[Android稳定性] 第027篇 [问题篇] 数组越界导致Unexpected kernel BRK exception at EL1 11月前 评论
[Android稳定性] 第027篇 [问题篇] 数组越界导致Unexpected kernel BRK exception at EL1

在正常测试过程中,手机电池温度达到35度时,手机进入dump状态。问题分析显示,在`pd_policy_manager`模块的`usbpd_pm_workfunc`函数中出现了内核崩溃。进一步分析发现,`usbpd_pm_sm`函数在处理状态转换时,由于状态数组`pm_str`未包含`PD_PM_STATE_FC2_HOLD`,导致数组越界访问,引发崩溃。解决方案建议在`pm_str`数组中添加`PD_PM_STATE_FC2_HOLD`状态。

[linux内存管理] 第023篇 watermark详解 11月前 评论
[linux内存管理] 第023篇 watermark详解

本文探讨了 Linux 内存管理中的水位机制,特别是 `zoned page frame allocator` 如何使用水位来控制内存分配和回收。文章首先介绍了 `struct zone` 结构体和三种水位 `WMARK_MIN`、`WMARK_LOW` 和 `WMARK_HIGH` 的概念及其作用。随后,文章详细分析了水位的初始化过程,包括计算 `min_free_kbytes`、更新内存区水位、刷新内存区统计阈值和初始化低内存保留等步骤。接着,文章讨论了快速分配和慢速分配中的水位检测机制,以及 `kswapd` 和内存规整过程中的水位检测。最后,文章强调了调整内存水位的重要性,以及如何根据不同业务场景进行优化。

[Android稳定性] 第026篇 [方法篇] 在windows平台安装Linux ramdump parser工具 11月前 评论
[Android稳定性] 第026篇 [方法篇] 在windows平台安装Linux ramdump parser工具

本文介绍了在Windows环境下安装Python工具、获取Linux ramdump parser工具、编写解析脚本、编译工具链以及增加local_setting.py配置文件的过程。首先,安装Python并使用pip安装必要的库。接着,获取开源和专有的Linux ramdump parser工具并进行整合。然后,编写解析脚本并运行。此外,还需下载并整合gdb、nm和objdump工具链,最后在指定目录下增加local_setting.py文件以指定工具链路径。

[Android稳定性] 第025篇 [问题篇] KASAN slab-out-of-bounds内存越界问题 2025-02-27 评论
[Android稳定性] 第025篇 [问题篇] KASAN slab-out-of-bounds内存越界问题

本文分析了在运行kasan版本corgi: 4967550时出现的死机问题,问题概率为4/7。通过分析dmesg日志,确定问题类型为slab-out-of-bounds,问题函数为usbpd_mi_vdm_received_cb,越界地址为ffffff808d6c0a60。通过trace32工具恢复现场,定位到死机原因为for循环中的数组越界访问。最终,通过修改循环次数为rx_msg->data_len/sizeof(u32),成功解决问题。

[linux内存管理] 第022篇 buddy内存管理之慢速分配 2025-02-19 评论
[linux内存管理] 第022篇 buddy内存管理之慢速分配

延续对内核内存分配机制的深入解析,本文聚焦于`__alloc_pages`函数中的慢速分配流程。当快速分配失败后,系统会启用慢速路径,通过多种方式尝试获得所需页,包括直接回收、内存规整、唤醒kswapd线程与触发OOM机制。详细剖析了关键参数如`can_direct_reclaim`(是否允许回收)、`costly_order`(大块分配压力)、`__GFP_ATOMIC`滥用检查,以及规整与回收触发条件。代码层面揭示内存分配失败时的处理逻辑,强调高效而严谨的回退与重试机制,保证系统最大程度完成分配需求,并在极端情况下输出详细警告。

[Android稳定性] 第024篇 [方法篇] RCU Stall问题如何进行分析? 2025-02-18 评论
[Android稳定性] 第024篇 [方法篇] RCU Stall问题如何进行分析?

RCU(读-复制-更新)是一种针对多核、多线程环境的内存同步机制,旨在解决读写并发问题,特别适用于读多写少的场景。RCU Stall是指RCU子系统检测到的问题,如宽限期未结束、回调堆积或调度延迟等,可能导致系统性能下降。分析RCU Stall的方法包括检查内核日志、任务栈回溯、长时间运行的任务、锁和资源争用等。实例中,通过dmesg日志分析和打开panic_on_rcu_stall来复现问题,并通过串口输出进程信息进行深入诊断。

简述
在万物之间穿行,也在自我之间渡过。
生涯
  • 行业嵌入式
  • 职业Linux/Android内核工程师
  • 人生
  • 生活角色浪子、父母的娃、我夫人的老公
  • 社会角色公司职员、中华人民共和国公民
  • 类型
  • 星座 双子座
  • 生肖
  • 血型O
  • 数据
  • 发表文章171篇
  • 发表评论51个
  • 星球加热28602度
  • 最近的心情能量
  • 地图数据来源于高德地图
  • intj 建筑师
    intj 建筑师
    • 外向内向
    • 远见现实
    • 理性感受
    • 评判展望
    • 坚决起伏
  • 了解更多信息