健康检查接口需返回含依赖状态的动态JSON,配合goroutine主动探测、信号控制优雅重启,并结合Docker/K8s实现自动恢复,避免重启风暴与状态残留。
接口是故障检测的基础微服务要能自动恢复,首先要能准确判断自己是否“生病”。Golang 中最常用的方式是暴露一个 /health HTTP 接口,返回简单 JSON(如 {"status": "ok"}),并在其中嵌入关键依赖的检查逻辑——比如数据库连接、Redis 可用性、核心协程是否存活等。不要只返回固定 OK,否则监控系统无法识别真实异常。
除了被动响应健康接口,服务内部应主动轮询关键依赖。例如:
unhealthy,并记录日志检测到故障后,不能直接调用 os.Exit() 粗暴退出,否则正在处理的请求会中断。正确做法是:
syscall.SIGUSR2 或 SIGHUP(用于手动触发重启)和 syscall.SIGTERM(K8s 默认终止信号)srv.Shutdown(ctx) 等待活跃请求完成exec.Command(os.Args[0], os.Args[1:]...) 启动新进程,再退出旧进程(注意传递环境变量和工作目录)单靠服务自身很难做到“完全自动恢复”,尤其在崩溃或卡死时。建议结合运行环境:
restart: unless-stopped 或 on-failure
livenessProbe(调用 /health)和 readinessProbe,失败时自动 kill 并重建 PodterminationGracePeriodSeconds 给足优雅退出时间(建议 30s 起)频繁重启可能引发雪崩。上线前需验证: