Go微服务健康检查需分层设计liveness与readiness端点,用轻量原生工具实现可观察探针,并基于状态变化触发可控恢复动作,协同Kubernetes等平台形成闭环。
Go 语言凭借其轻量协程、高性能网络库和静态编译能力,非常适合构建高可用微服务。健康检查与自动恢复不是“有无”的问题,而是“是否及时、准确、可干预”的问题。核心在于:暴露可靠探针、主动监控状态、触发可控恢复动作,而非依赖外部“黑盒重启”。
健康检查不应只返回 200 OK,而要分层表达真实状态:
务是否准备好接收流量(如数据库连接池已建好、配置已加载、缓存预热完成)。可同步检查关键依赖(DB、Redis、下游 gRPC 服务),超时设为 2–3 秒,失败即返回 503 Service Unavailable。/healthz(liveness)和 /readyz(readiness)两个独立端点,便于 Kubernetes 分别配置 livenessProbe 和 readinessProbe。避免引入重型框架,用标准库 + 少量封装即可:
net/http 启一个专用健康检查 mux,与主业务路由隔离,防止业务 panic 影响探针。db.PingContext(ctx, timeout) 即可;对 Redis,用 client.Ping(ctx).Err()。status.Registry(map[string]func() error),动态注册检查项(如 “mysql”, “redis”, “config-watcher”),/readyz 端点遍历执行并聚合结果,任一失败即整体不就绪。健康检查只是“感知”,恢复才是关键。Go 适合做状态驱动的轻量协调:
/readyz,当连续 3 次失败,触发恢复流程:比如关闭 HTTP server 的新连接(srv.Shutdown())、重连数据库、重新加载配置文件。backoff.Retry 或自写简单 loop),而非立即 panic 或 exit。zap),包含动作、参数、结果,方便审计与告警联动。Go 服务自身能力有限,需借力平台能力补全闭环:
livenessProbe 设置为短周期(如 10s)、低超时(2s),确保快速发现僵死进程;readinessProbe 设为稍长(如 15s)、容忍短暂波动(failureThreshold: 3)。http_health_check_duration_seconds 和 health_check_failed_total,对 readiness 连续失败发出 P1 告警,并附带服务名、实例 IP、最近 3 条检查日志片段。不复杂但容易忽略:健康检查本身也要有健康保障 —— 它不能成为单点故障。把探针逻辑做轻、做稳、做可观察,再配上明确的恢复策略和平台协同,微服务的可用性就有了扎实的底层支撑。