微服务中Go的error不应直接返回调用方,须统一映射为语义明确的状态码(HTTP)或标准gRPC code,封装为可识别类型并保留错误链,携带trace ID,禁止字符串匹配,确保可观测性与重试策略分层可控。
在微服务间通信(如 HTTP/gRPC)中,直接把 fmt.Errorf("db timeout") 或底层库的原始 error 返回,会导致调用方无法区分是临时故障、业务拒绝还是系统崩溃。Go 的 error 接口本身不带状态码、重试建议或上下文标识,裸 error 会破坏服务契约。
400 Bad Request、503 Service Unavailable 等语义明确的状
500 Internal Server Error
codes.Code(如 codes.Unavailable、codes.InvalidArgument),不能靠字符串匹配错误信息做判断"svc-order:payment_client_timeout"),否则链路追踪里只剩 "context deadline exceeded" 这种泛化提示Go 1.13 引入的 errors.Is 和 errors.As 让错误分类成为可能,但前提是错误类型可识别。推荐定义一组核心 error 类型,并用 fmt.Errorf("xxx: %w", err) 包裹底层 error,形成可展开的错误链。
type PaymentFailedError struct {
OrderID string
Code string // "PAYMENT_DECLINED", "INSUFFICIENT_BALANCE"
}
func (e *PaymentFailedError) Error() string {
return fmt.Sprintf("payment failed for order %s: %s", e.OrderID, e.Code)
}
// 使用时
if errors.Is(err, context.DeadlineExceeded) {
return &PaymentFailedError{OrderID: orderID, Code: "TIMEOUT"}, codes.DeadlineExceeded
}
strings.Contains(err.Error(), "timeout")),脆弱且无法跨语言兼容%w,否则 errors.Unwrap() 失效,链路中断log.Error("payment failed", "err", err),而不是 err.Error(),确保结构化字段和堆栈完整Protobuf 定义的 gRPC 接口默认通过 status.Error(codes.XXX, msg) 构造错误,但前端或网关常消费 HTTP 接口。若未显式配置映射规则,codes.Unauthenticated 可能被转成 500 而非预期的 401,导致前端鉴权逻辑失效。
google.golang.org/grpc/codes 和 google.golang.org/grpc/status 构建错误,而非手动拼接字符串runtime.WithErrorHandler,按 code 映射 HTTP 状态码,例如:codes.Unavailable → 503,codes.ResourceExhausted → 429
http.Error(w, "bad request", http.StatusBadRequest),绕过统一错误处理管道微服务调用链中,一个 context.DeadlineExceeded 可能来自客户端、网关、下游服务或 DB 连接池。盲目重试会放大雪崩风险;完全不重试又降低可用性。关键是在每层明确“谁该重试、重试几次、什么条件下跳过”。
codes.Unavailable / codes.DeadlineExceeded 可启用指数退避重试(最多 2 次),但对 codes.InvalidArgument 或 codes.AlreadyExists 绝对禁止重试sql.ErrNoRows)不应向上抛成 codes.Internal,而应转为业务语义错误(如 codes.NotFound)并由上层决定是否兜底最易被忽略的是 error 的可观测性:同一个错误在不同服务日志里应有相同 trace ID、一致的 error code 字段、可被 Prometheus 按 error_code 标签聚合。否则排查时只能靠猜。