17370845950

如何使用PerfEvents在Linux上分析c++ CPU性能瓶颈? (火焰图生成)
perf record 分析 C++ 程序需编译时加 -g -fno-omit-frame-pointer,用 --demangle 解析符号,经 perf script → stackcollapse-perf.pl → flamegraph.pl 生成火焰图,并注意 inline、JIT 和符号路径问题。

perf record 采集 C++ 程序的 CPU 时间分布

直接用 perf record -g -p perf record -g -- ./my_program 即可捕获调用栈,但关键在编译和符号支持。C++ 程序若未保留调试信息或内联过度,火焰图会显示大量 [unknown] 或扁平化函数名。

  • 编译时必须加 -g -fno-omit-frame-pointer(Clang/GCC 均需),否则 -g

    不足以支撑 -g 栈回溯
  • 禁用 -O2 以上优化可能更易读,但生产环境建议用 -O2 -g -fno-omit-frame-pointer 平衡真实性和可分析性
  • 若程序启动快、退出快,用 perf record -g -e cpu-clock --duration 5 -- ./my_program 更可靠

解决 perf script 输出中 C++ 符号被截断或 mangling 的问题

perf script 默认输出的是 mangling 后的符号(如 _Z10computeSumi),火焰图工具(如 FlameGraph)无法识别,需 demangle。但不能简单 pipe 给 c++filt —— 它会破坏 perf 脚本格式。

  • 正确做法:用 perf script -F comm,pid,tid,cpu,time,period,ip,sym,dso,trace -F +sym --demangle(Linux 5.14+ 支持 --demangle
  • 旧内核可用 perf script | awk '{ $NF = system("c++filt " $NF " 2>/dev/null || echo " $NF); print }',但性能差、易出错
  • 若仍见大量 [unknown],检查是否加载了 .so 且未带 -g;用 readelf -S ./libxxx.so | grep debug 验证调试段存在

生成火焰图:从 perf.data 到 SVG

核心链路是 perf scriptstackcollapse-perf.plflamegraph.pl,三步缺一不可,且顺序和参数敏感。

  • 确保已安装 FlameGraph 工具集,并将 stackcollapse-perf.plflamegraph.pl 加入 $PATH
  • 标准命令流:
    perf script -F comm,pid,tid,cpu,time,period,ip,sym,dso,trace --demangle | ./stackcollapse-perf.pl | ./flamegraph.pl > profile.svg
  • 若 C++ 模板实例过多导致火焰图过宽,加 --minwidth=0.5 过滤微小帧(单位毫秒),或用 --colors c++ 启用 C++ 专用配色
  • 注意:不要用 perf script -F sym 简写——它默认不输出 IP 和调用关系,stackcollapse-perf.pl 会报错

常见卡点:符号路径缺失与 JIT/inline 冲突

即使有 -gperf 仍可能找不到符号,尤其当程序运行在非标准路径、或使用了 LD_LIBRARY_PATH 加载动态库时。

  • perf buildid-list -i perf.data 查看所有模块 build-id,再用 perf buildid-cache -v --add ./my_program 手动注入符号路径
  • C++ inline 函数在火焰图中默认折叠进调用者,想展开需加编译选项 -fno-inline-functions-called-once -fno-inline-small-functions(仅调试期)
  • 若程序含 JIT 代码(如某些 Python/C++ 混合场景),需额外启用 perf record -k 1 并配合 perf inject --jit,否则 JIT 函数全为 [jitted]

火焰图不是万能放大镜——它反映的是采样时刻的 CPU 时间占比,对锁竞争、IO 等非 CPU 瓶颈不敏感;而 C++ 的 RAII、临时对象、move 语义等行为,在火焰图里往往藏在构造/析构函数中,容易被忽略。