HTTP健康检查应实现轻量级端点,如/health返回{"status":"ok"};依赖检查需并发、超时、缓存且不记录error日志;K8s中liveness与readiness须分离路径;第三方库易引发竞态和指标冲突,推荐手写。
Go 标准库 net/http 没有内置健康检查逻辑,但实现一个轻量级端点非常直接:监听 /health 或 /healthz,返回 200 和简单 JSON 即可。关键在于避免引入额外依赖、不阻塞主线程、不带副作用。
http.HandleFunc 注册路径,不要用中间件封装过度(除非已有统一中间件体系){"status":"ok"},Content-Type 设为 application/json; charset=utf-8
context.WithTimeout,否则健康检查本身可能拖垮探针http.HandleFunc("/health", func(w http.ResponseWriter, r *http.Request) {
w.Header().Set("Content-Type", "application/json; charset=utf-8")
w.WriteHeader(http.StatusOK)
w.Write([]byte(`{"status":"ok"}`))
})
真实服务往往依赖数据库、Redis、下游 HTTP 接口等。这时健康检查不能只看自身进程存活,得探测关键依赖是否可达。但要注意:探测粒度、失败策略和缓存结果都影响可用性判断。
sync.WaitGroup 或 errgroup.Group 并发)func checkDB(ctx context.Context) error {
ctx, cancel := context
.WithTimeout(ctx, 500*time.Millisecond)
defer cancel()
return db.PingContext(ctx)
}
K8s 的 livenessProbe 和 readinessProbe 默认都调用同一个 HTTP 端点,但这容易导致误杀:比如 DB 临时不可用,liveness 触发重启,反而加剧雪崩。应该拆开语义。
liveness 只检查进程是否卡死(例如 goroutine 泄漏、死锁),可只返回 200 OK,不做任何外部依赖检查readiness 才检查 DB/Redis/下游等,返回 200 表示「可接收流量」,返回 503 表示「暂时别转发请求」livenessProbe.httpGet.path: /healthz/liveness,readinessProbe.httpGet.path: /healthz/readiness
initialDelaySeconds,否则容器反复重启go-health 这类库能自动聚合检查项、输出结构化 JSON,但实际落地常被低估两个问题:初始化时机和指标污染。
go-health 的默认指标名(如 health_check_duration_seconds)可能和你已有的监控命名冲突,需手动 prefix 或禁用指标导出Checkers 是全局单例,多个服务共用一个实例时,不同服务的检查逻辑会互相覆盖 —— 必须按服务实例隔离