perf record 分析 C++ 程序需编译时加 -g -fno-omit-frame-pointer,用 --demangle 解析符号,经 perf script → stackcollapse-perf.pl → flamegraph.pl 生成火焰图,并注意 inline、JIT 和符号路径问题。
直接用 perf record -g -p 或 perf record -g -- ./my_program 即可捕获调用栈,但关键在编译和符号支持。C++ 程序若未保留调试信息或内联过度,火焰图会显示大量 [unknown] 或扁平化函数名。
-g -fno-omit-frame-pointer(Clang/GCC 均需),否则 -g
-g 栈回溯-O2 以上优化可能更易读,但生产环境建议用 -O2 -g -fno-omit-frame-pointer 平衡真实性和可分析性perf record -g -e cpu-clock --duration 5 -- ./my_program 更可靠perf script 默认输出的是 mangling 后的符号(如 _Z10computeSumi),火焰图工具(如 FlameGraph)无法识别,需 demangle。但不能简单 pipe 给 c++filt —— 它会破坏 perf 脚本格式。
perf script -F comm,pid,tid,cpu,time,period,ip,sym,dso,trace -F +sym --demangle(Linux 5.14+ 支持 --demangle)perf script | awk '{ $NF = system("c++filt " $NF " 2>/dev/null || echo " $NF); print }',但性能差、易出错[unknown],检查是否加载了 .so 且未带 -g;用 readelf -S ./libxxx.so | grep debug 验证调试段存在核心链路是 perf script → stackcollapse-perf.pl → flamegraph.pl,三步缺一不可,且顺序和参数敏感。
stackcollapse-perf.pl 和 flamegraph.pl 加入 $PATH
perf script -F comm,pid,tid,cpu,time,period,ip,sym,dso,trace --demangle | ./stackcollapse-perf.pl | ./flamegraph.pl > profile.svg
--minwidth=0.5 过滤微小帧(单位毫秒),或用 --colors c++ 启用 C++ 专用配色perf script -F sym 简写——它默认不输出 IP 和调用关系,stackcollapse-perf.pl 会报错即使有 -g,perf 仍可能找不到符号,尤其当程序运行在非标准路径、或使用了 LD_LIBRARY_PATH 加载动态库时。
perf buildid-list -i perf.data 查看所有模块 build-id,再用 perf buildid-cache -v --add ./my_program 手动注入符号路径-fno-inline-functions-called-once -fno-inline-small-functions(仅调试期)perf record -k 1 并配合 perf inject --jit,否则 JIT 函数全为 [jitted]
火焰图不是万能放大镜——它反映的是采样时刻的 CPU 时间占比,对锁竞争、IO 等非 CPU 瓶颈不敏感;而 C++ 的 RAII、临时对象、move 语义等行为,在火焰图里往往藏在构造/析构函数中,容易被忽略。