服务发现需兼顾注册中心选型、客户端行为与健康检查:etcd依赖租约续期,Consul易现幽灵实例;须用封装SDK、显式释放租约、异步resolver;健康检查需结合业务探针;多环境须用原生namespace隔离。
Go 微服务里,service discovery 不是开个库就完事。核心矛盾在于:服务实例的生命周期(启停、扩缩容、网络抖动)必须被及时感知,而不同注册中心(如 etcd、Consul、Nacos)对健康检查、TTL、watch 机制的设计差异极大。比如 etcd 依赖租约(lease)续期,一旦客户端卡顿没及时 KeepAlive,实例就会被秒删;而 Consul 默认用 TCP 端口探测,若服务进程卡住但端口仍通,就会产生“幽灵实例”。
实操建议:
go-etcd/clientv3 手写注册逻辑——优先选封装了 lease 自动续期和 watch 重连的 SDK,比如 go-micro/v2/registry/etcd 或 kitex-contrib/registry/etcd
TTL 和 Lease ID,且在服务 os.Interrupt 信号中显式调用 client.Grant 对应的 Revoke,否则进程退出后租约残留,导致下次启动注册失败很多团队误以为“用了 gRPC-Go 的 dns:/// 就算接入服务发现”,其实这是典型误区。dns:/// 只支持静态 DNS 解析,不感知实例上下线;真正要走动态发现,必须用 grpc.WithResolvers + 自定义 resolver.Builder,把注册中心的 watch 结果转成 resolver.State。
常见错误现象:
rpc error: code = Unavailable desc = connection closed
Address 列表且没触发 ResolveNow
实操建议:
kitex 的话,直接配 WithRegistry 和 WithResolver,它内置了基于 etcd 的 watcher 与连接池刷新逻辑gRPC-Go,必须自己实现 Watch 方法,在收到注册中心变更时调用 cc.UpdateState,且每次更新后手动触发 cc.ResolveNow 避免延迟注册中心默认的心跳(如 etcd lease 续期)只能证明“进程活着”,但无法反映“能处理请求”。比如数据库连接池耗尽、Redis 连接断开、或某个 handler 死锁,服务仍会持续上报心跳,流量照常打入,结果全量超时。
实操建议:
SELECT 1 检查 DB,GET health 检查 Redis),并将结果写入本地状态healthy
/healthz 时,不要只返回 200 OK,必须包含关键依赖的检查结果(如 {"db": "ok", "redis": "timeout"}),供注册中心或 k8s liveness probe 解析同一个 etcd 集群跑 dev/test/prod,如果只靠 key path 前缀(如 /services/dev/user)区分,容易因手误或脚本 bug 导致跨环境注册。更稳妥的是利用注册中心原生的命名空间能力。
参数差异:
Nacos 用 namespaceId(字符串 ID)做硬隔离,不同 namespace 的服务完全不可见Consul 用
Namespace(1.9+)或 Partition,但老版本只能靠 Tag + 客户端过滤,可靠性低etcd 无原生 namespace,必须靠目录层级 + client 端严格校验 key prefix,推荐用 github.com/coreos/etcd/clientv3/naming 的 Resolver 实现按 prefix 过滤容易踩的坑:
namespace,结果把 dev 实例注册到了 prod 环境,引发雪崩Tag 做环境标识(如 env=prod),但客户端 resolver 没加 filter,导致请求随机打到其他环境实例上线前务必检查:服务注册时传入的 namespace / group 参数是否来自环境变量,且有默认值兜底;客户端初始化 resolver 时是否强制指定了相同维度的筛选条件。