[Android稳定性] 第025篇 [问题篇] KASAN slab-out-of-bounds内存越界问题 9月前查看 评论
[Android稳定性] 第025篇 [问题篇] KASAN slab-out-of-bounds内存越界问题

本文分析了在运行kasan版本corgi: 4967550时出现的死机问题,问题概率为4/7。通过分析dmesg日志,确定问题类型为slab-out-of-bounds,问题函数为usbpd_mi_vdm_received_cb,越界地址为ffffff808d6c0a60。通过trace32工具恢复现场,定位到死机原因为for循环中的数组越界访问。最终,通过修改循环次数为rx_msg->data_len/sizeof(u32),成功解决问题。

[linux内存管理] 第022篇 buddy内存管理之慢速分配 9月前查看 评论
[linux内存管理] 第022篇 buddy内存管理之慢速分配

**本文分析了 Linux 内核中慢速内存分配路径 `__alloc_pages_slowpath`,该路径在快速分配失败时被触发。慢速分配尝试通过多种手段获取内存,包括内存回收、内存压缩和唤醒 kswapd 线程等**。 **主要步骤如下**: 1. **判断是否允许直接回收内存**:根据 GFP 标志判断是否可以进行直接内存回收。 2. **判断是否为高成本请求**:根据请求的 order 和 migratetype 判断是否为高成本请求。 3. **尝试直接内存压缩**:在高成本请求或无法访问预留内存的情况下,尝试进行直接内存压缩。 4. **唤醒 kswapd 线程**:唤醒 kswapd 线程进行内存回收。 5. **尝试再次分配内存**:根据新的分配标志和 zonelist 尝试再次分配内存。 6. **直接内存回收**:如果允许直接回收内存,则尝试进行直接内存回收。 7. **再次尝试分配内存**:在内存回收后再次尝试分配内存。 8. **尝试内存压缩**:如果直接内存回收失败,则尝试进行内存压缩。 9. **处理 CPU 集合更新**:检查 CPU 集合是否更新,并进行相应的处理。 10. **启动 OOM 杀手**:如果所有尝试都失败,则启动 OOM 杀手进程。 11. **重试分配**:如果 OOM 杀手进程有所进展,则重试分配。 **慢速分配路径的关键在于通过各种手段增加空闲内存,以便能够成功分配请求的内存**。 **总结来说,慢速分配路径是 Linux 内核中保证内存分配可靠性的重要机制,它通过多种手段应对内存不足的情况,确保系统能够正常运行**。

[Android稳定性] 第024篇 [方法篇] RCU Stall问题如何进行分析? 9月前查看 评论
[Android稳定性] 第024篇 [方法篇] RCU Stall问题如何进行分析?

RCU(读-复制-更新)是一种针对多核、多线程环境的内存同步机制,旨在解决读写并发问题,特别适用于读多写少的场景。RCU Stall是指RCU子系统检测到的问题,如宽限期未结束、回调堆积或调度延迟等,可能导致系统性能下降。分析RCU Stall的方法包括检查内核日志、任务栈回溯、长时间运行的任务、锁和资源争用等。实例中,通过dmesg日志分析和打开panic_on_rcu_stall来复现问题,并通过串口输出进程信息进行深入诊断。

[Android稳定性] 第023篇 [问题篇] printk非空的非法指针参数导致的spinlock死锁引起Non Secure WDT 10月前查看 评论
[Android稳定性] 第023篇 [问题篇] printk非空的非法指针参数导致的spinlock死锁引起Non Secure WDT

**摘要**: 本文分析了Linux内核中因`Non secure wdt`导致的死机问题。通过分析ramdump,发现所有CPU都在等待一个spin lock,且锁的持有者是`kworker/u17:12`。进一步分析发现,该进程在获取锁后出现了data abort,并在异常处理流程中再次尝试获取锁,导致死锁。根本原因是`nvt_update_firmware`函数中使用了未初始化的指针作为`printk`的参数,导致打印异常。解决方案是将`kmalloc`改为`kzalloc`,以确保内存被清零。实验验证了当`printk`的参数为非法指针时,会导致死锁。