Hot/Cold Splitting是一种编译器驱动的代码布局优化技术,旨在提升指令缓存局部性:通过将高频执行的热代码与低频/异常路径的冷代码分离存放,减少缓存行浪费和分支预测干扰。
Hot/Cold Splitting(热/冷代码分离) 是一种编译器驱动的代码布局优化技术,核心目标是提升指令缓存(I-Cache)局部性:把高频执行的“热”代码集中放置,低频或异常路径的“冷”代码挪到远离热区的位置,减少缓存行浪费和分支预测干扰。
现代 CPU 的指令缓存容量有限(如 L1i 通常仅 32–64 KiB),而函数中常混有主逻辑(如循环体、常见分支)和边缘逻辑(如错误检查、异常处理、罕见 case)。若两者紧邻存放,一条缓存行可能同时载入热代码和冷代码,导致热代码被挤出缓存,或预取器加载了大量无用指令。分离后,CPU 预取和缓存更聚焦于真正活跃的区域。
主流编译器(GCC、Clang、MSVC)主要依赖以下信息:
ofile):例如将 if (unlikely(err)) { ... } 中的 err 分支默认标记为 cold;[[unlikely]] 或 __attribute__((cold)) 显式标注函数/标签;catch 块、throw 路径)默认视为冷代码;该优化对性能的影响取决于工作负载特征:
-fprofile-generate → 运行采集 → -fprofile-use -freorder-blocks-and-partition;Clang 还支持 -mllvm -enable-hot-cold-partitioning(配合 PGO);[[gnu::hot]] / [[gnu::cold]] 手动标注关键路径,可弥补 profile 不足,尤其在无法做 PGO 的嵌入式或启动阶段代码中有效。Hot/Cold Splitting 仅优化指令布局,不改变算法复杂度或数据访问模式。若瓶颈在内存带宽、L3 缓存争用或分支误预测本身,该技术效果有限。应配合 perf / VTune 分析热点函数和 cache-miss 指标,确认 I-Cache 是否真为瓶颈后再投入 PGO 流程。