Golang应用状态监控应轻量实时、零外部依赖:通过读取/proc文件或runtime/debug包获取CPU(两次采样差值法)和内存(Alloc/Sys/VmRSS)指标,内置HTTP/metrics端点返回结构化数据,并支持阈值告警与趋势分析。
用 Golang 实现应用状态监控,重点是轻量、实时、不依赖外部服务。直接读取系统指标(如 /proc/stat 和 /proc/meminfo)或调用标准库 runtime 和 debug 包,就能获取进程级 CPU 与内存使用情况。
Go 运行时本身不直接暴露“百分比 CPU 占用”,需通过两次采样 runtime.ReadProcessCPUStats(Go 1.22+)或手动计算 runtime.MemStats 中的 LastGC 和 NumGC 配合 wall clock 时间差。更常用且兼容的方式是读取 /proc/self/stat(Linux)中的第 14–17 字段(utime, stime, cutime, cstime),结合系统启动时间与 jiffies 换算。
github.com/shirou/gopsutil/v3 可简化操作:它封装了跨平台逻辑,调用 cpu.Percent 获取最近 1 秒的进程 CPU 使用率/proc/self/stat,提取 utime+stime,与上一次值做差,再除以采样间隔内系统总 jiffies 增量(需从 /proc/uptime 和系统 HZ 推算)区分“操作系统分配给进程的内存”和“Go 运行时管理的堆内
存”。前者看 runtime.ReadMemStats 中的 Sys(总虚拟内存)、Alloc(当前堆分配字节数);后者可用 ps aux 或 /proc/self/status 的 VmRSS 字段反映真实物理内存占用。
runtime.ReadMemStats(&ms) 获取结构体,重点关注 Alloc(活跃对象)、HeapInuse(堆已使用)、StackInuse(栈内存)、Sys(向 OS 申请总量)Alloc,若连续 3 次增幅 >20MB 且无明显 GC,可能有内存泄漏debug.SetGCPercent 和 debug.FreeOSMemory()(慎用)做简单干预,但不应替代分析内置一个轻量 HTTP handler,返回结构化 JSON,方便 Prometheus 抓取或人工 curl 查看。
GET /healthz 返回基本存活状态,GET /metrics 返回 CPU、内存、goroutine 数、GC 次数等字段go_alloc(Alloc)、go_sys(Sys)、os_rss_kb(从 /proc/self/status 解析 VmRSS,单位 KB)process_cpu_percent(float64,保留两位小数),值来自 gopsutil 或自研采样器监控不止于查看,关键在异常感知。可在采集循环中嵌入简单规则判断,并写入日志或触发回调。
Alloc > 500_000_000(500MB)或 CPU > 90.0 持续 10 秒,记录 Warn 日志并带上堆栈快照(runtime.Stack)Alloc 历史切片,用线性回归斜率估算增长速率,>5MB/s 触发注意日志不复杂但容易忽略的是采样频率与精度的平衡——太密增加开销,太疏错过峰值。推荐初始配置:内存每 5 秒采样、CPU 每 2 秒采样、状态端点不限频但加限流中间件。所有逻辑封装成独立包,便于复用和测试。