Go 程序中 goroutine 泄漏不是“会不会发生”的问题,而是“什么时候被发现”的问题——它往往在压测后内存缓慢上涨、服务重启前卡顿、pprof 里看到几百个 chan receive 状态协程时才浮出水面。
runtime.NumGoroutine() 快速验证测试是否泄漏这是最轻量、最直接的单元测试级检测手段,适合在 CI 或本地开发阶段快速拦截明显泄漏。
time.AfterFunc 或显式信号(如 done chan struct{})来确认退出goleak 库自动过滤已知安全 goroutinefunc TestProcessJob(t *testing.T) { before := runtime.NumGoroutine() ch := make(chan int, 1) go func() { <-ch // 永远阻塞:无发送者,也未 close }() // 没有 close(ch),也没有 sender → 泄漏已发生 time.Sleep(50 * time.Millisecond) after := runtime.NumGoroutine() if after > before+2 { // 允许 ±1~2 个浮动 t.Errorf("leak detected: %d → %d", before, after) } }
net/http/pprof 定位阻塞点和调用栈
当服务已上线、goroutine 数持续增长,runtime.NumGoroutine() 只告诉你“有事”,而 pprof 告诉你“什么事、在哪行、为什么卡住”。
_ "net/http/pprof",再起一个独立 goroutine 监听 :6060,无需改业务逻辑/debug/pprof/goroutine?debug=1 显示所有 goroutine 当前堆栈;?debug=2 还会显示更全的 blocking channel 信息chan receive、select、semacquire 或长时间 sleep 的 goroutine —— 它们大概率就是泄漏源diff -u A B | grep "^+" 找新增堆栈,直指问题函数context.Context 主动控制 goroutine 生命周期绝大多数泄漏本质是“没有退出机制”,而 context 是 Go 官方提供的、最自然的取消信号传递方式。
for {} 或 for range ch 而不检查 ctx.Done()
context.WithCancel 或 context.WithTimeout 创建子 context,并确保在合适时机调用 cancel() —— 忘记调用等于没加select { case ,而不是裸
context.Background() 本身不会取消,仅作根节点;真正起作用的是你派生出的、并被显式 cancel 的那个ctx, cancel := context.WithTimeout(context.Background(), 5*time.Second) defer cancel() // 关键:确保 cancel 被调用go func(ctx context.Context) { for { select { case <-ctx.Done(): fmt.Println("goroutine exiting gracefully") return default: // do work time.Sleep(100 * time.Millisecond) } } }(ctx)
sync.WaitGroup 配合显式关闭确保清理完成当你需要等一组 goroutine 全部结束(比如服务优雅 shutdown),WaitGroup 是唯一可靠的方式 —— runtime.Gosched() 或 sleep 都不可靠。
wg.Add(1) 必须在 go 语句之前,否则存在竞态:goroutine 可能先执行完 Done(),导致 Wait() 永久阻塞wg.Done(),推荐用 defer wg.Done() 防止遗漏close(ch)(如果该 channel 不再被写入),否则其他 goroutine 可能还在等它真正难的不是写对某一行代码,而是所有 goroutine 都得有明确的 exit path,且所有 exit path 都被调用。哪怕一个 defer cancel() 忘了写,或一个 close(ch) 漏在 error 分支里,泄漏就藏进去了。生产环境里,它往往不报错,只悄悄吃掉内存和连接数。