11月前
评论
[linux内存管理] 第017篇 zonelist的初始化
本文主要分析了Linux内核中zonelist的初始化过程。首先介绍了两个关键数据结构:`pglist_data`和`zonelist`,其中`pglist_data`包含了一个`node_zonelists`数组,用于管理内存节点的zone信息;`zonelist`结构体则包含了一个`zoneref`数组,用于描述一个node的各个zone的信息。接着详细阐述了zonelist的初始化过程,包括`build_all_zonelists`、`build_zonelists`和`build_zonerefs_node`三个关键函数。最后,总结了zonelist的初始化过程,并附上了初始化过程的示意图。
11月前
评论
[linux内存管理] 第016篇 /proc/iomem的详细解析
本文详细介绍了Linux内核中`/proc/iomem`节点的构建与显示过程。文章首先指出`/proc/iomem`展示的是物理内存的使用情况,并通过`request_standard_resources`函数将内存区域挂载到资源树。文章进一步解析了`/proc/iomem`的注册过程,包括`ioresources_init`函数和`iomem_resource`资源树,以及数据来源和显示逻辑。最后总结,`/proc/iomem`通过遍历资源树和格式化输出,提供了系统物理内存布局的详细视图,对资源管理和调试具有重要作用。
11月前
评论
[linux内存管理] 第015篇 理解Linux内核中的memblock和ioremap机制
Linux内核中,设备寄存器的物理地址管理涉及`memblock`和`ioremap`两个关键机制。`memblock`在内核启动阶段负责物理内存的分布记录和地址保留,确保设备寄存器不被误用。`ioremap`则将物理地址映射到内核虚拟地址空间,便于驱动程序访问寄存器。设备寄存器映射流程包括设备描述、物理地址保留、驱动加载和地址映射,最终驱动通过虚拟地址访问寄存器。这两者共同确保了设备寄存器的正确管理和高效访问。
11月前
评论
[Android稳定性] 第015篇 [问题篇] Unable to handle kernel NULL pointer dereference
系统出现死机,初步分析定位到问题为内核空指针引用,具体是在focaltech_spi模块的fts_power_usb_notifier_callback函数中。进一步通过trace32恢复现场发现,问题在于wq对象在函数执行过程中被销毁。根本原因是fts_data->ts_workqueue队列在fts_power_usb_notifier_callback执行过程中被销毁。
11月前
评论
[Android稳定性] 第014篇 [问题篇] slab内存泄露
**问题描述**: 系统出现Slab内存占用过高,初步分析发现`kmalloc-128`存在内存泄漏问题。日志分析显示`pd_dbg_info`函数申请内存次数远大于释放次数,怀疑存在内存泄漏。 **问题分析**: * **日志分析**: 通过分析`meminfo`和`slabinfo`日志,发现`kmalloc-128`内存占用持续增加,初步判断存在内存泄漏。 * **Slabtrace日志**: `pd_dbg_info`函数申请内存次数达到3761872,而释放函数`print_out_dwork_fn`只释放了224862次,存在大量内存未释放。 * **根本原因**: `pd_dbg_info`函数申请内存后,通过`print_out_dwork_fn`工作队列函数释放内存。由于`print_out_dwork_fn`会统计printed次数,超过`dbg_log_limit`后启动延迟队列,导致内存释放延迟,最终造成内存泄漏。 **解决方案**: * **调整`dbg_log_limit`**: 根据实际情况调整`dbg_log_limit`值,避免延迟队列启动,及时释放内存。 * **优化工作队列**: 优化`print_out_dwork_fn`工作队列,提高内存释放效率。 * **内存泄漏检测**: 使用内存泄漏检测工具,例如Valgrind,对代码进行检测和修复。 **总结**: 该问题是由于`pd_dbg_info`函数申请内存后,延迟释放导致的内存泄漏。通过调整`dbg_log_limit`、优化工作队列和进行内存泄漏检测,可以有效解决该问题。
11月前
评论
[linux内存管理] 第014篇 /proc/zoneinfo的详细解析
你好,根据您提供的文档内容,我总结如下: 内存管理是Linux内核中一个复杂的模块,涉及多种数据结构和逻辑。为了帮助开发者了解内存使用情况,内核在核心数据结构中提供了计数统计。初始化时,会进行一系列操作,包括设置架构、构建zonelist、初始化页分配器和内存管理模块等。 `/proc/zoneinfo` 是一个虚拟文件节点,用于展示内存管理区的详细统计信息。通过 `zoneinfo_show` 函数,可以遍历每个内存管理区,并打印相关信息。 `zoneinfo_show_print` 函数负责打印每个内存管理区的详细信息,包括: 1. 当前节点的内存统计信息,例如匿名页面、文件页面、脏页面、写回页面等数量。 2. 当前内存管理区的总信息,例如空闲页面数、最低/高/高水位线、覆盖的页面数、实际存在的页面数、受内核管理的页面数、CMA预留页面数等。 3. 当前内存管理区的详细页面信息,例如空闲页面数、非活跃/活跃的匿名/文件页面数、无法回收的页面数、待写回的页面数、mlock锁定的页面数、页表页面数、中转页面数、压缩页数、CMA空闲页面数等。 4. 当前内存管理区的pageset信息,即每个CPU内存分配器信息,包括可用的页面数、高水位线、批量分配大小等。 5. 其他信息,例如节点是否不可回收、节点的起始页帧号等。 这些信息可以帮助开发者了解内存使用情况,并进行相应的优化和调整。
11月前
评论
[Android稳定性] 第013篇 [问题篇] page allocation failure: order:0内存分配失败的异常报错
在工厂老化测试过程中,设备出现卡视频现象,但USB接口可以识别到ADB口。通过分析日志发现,设备频繁出现"page allocation failure"错误,且均为"order:0",表明在分配一页大小的内存时失败。然而,系统配置中存在空闲的4KB内存,且内存分配标志为"GFP_NOWAIT|__GFP_NORETRY",表示希望进行一个非阻塞的内存分配,而空闲的UMEH页面恰好符合这些条件。这表明内核在内存充足的情况下无法分配内存,原因可能在于erofs文件系统在执行解压缩时使用GFP_NOWAIT标签进行内存申请,减少分配page的压力,但可能存在系统内存水位线不满足要求的情况。
11月前
7 条
[Android稳定性] 第012篇 [原理篇] blackbox的原理介绍
Blackbox 是一种日志管理方案,旨在解决当前日志分析和自动化解析的痛点,如日志分散、时间标准不统一、关键事件记录丢失、RAS 实现自动化分析困难等。Blackbox 将大部分系统日志集中在特定分区,具有时间线的流式日志,可读性更强。它还根据已有经验在系统运行的关键节点打点,提升上市后稳定性问题的定位效率。针对不同的日志,有不同的日志老化删除节奏,从而更多保存异常日志。Blackbox 还提高了 RAS 自动化分析的能力,并可在设备卡死时通过 9008 方式将日志分区 dump 出来并解析,辅助问题分析。
11月前
评论
[Android稳定性] 第011篇 [原理篇] minidump的原理介绍补充
这篇文章主要介绍了Android系统中的minidump机制,这是一种用于保存系统崩溃信息的技术。文章首先解释了minidump的概念,即各个子系统在内存映射表中注册,当系统崩溃时,boot subsystem会加密并保存注册过的内存信息到RAM EMMC分区。 接着,文章详细描述了minidump的流程图和代码流程,包括HLOS侧和NON-HLOS侧的流程。在HLOS侧,文章重点介绍了defconfig配置、相关代码以及msm_minidump_add_region函数。在NON-HLOS侧,文章重点介绍了add_minidump_regions函数和boot_ram_dump_to_raw_parition函数。 文章还介绍了小米项目在minidump中增加的regions,包括md_kmsg、md_pmsg和tz_log,并解释了它们的设计原理。最后,文章介绍了如何验证minidump,包括设置minidump到emmc、触发dump以及从设备中拉取minidump。 此外,文章还介绍了minidump.gz的解析方法,包括解压minidump.gz和拆分minidump。
11月前
评论
[Android稳定性] 第010篇 [问题篇] 数组越界导致的内核panic
**摘要总结:** 服务器打包的daily版本在刷机后出现900E口死机问题。通过分析dmesg日志,发现程序在`fts_set_cur_value`函数处异常终止。进一步使用trace32工具恢复现场,确认是由于`touch_mode`数组越界导致的内存访问错误。该数组最大值被定义为15,但实际使用时传入了100,导致严重异常。