Go中http.Client必须显式设置超时,否则DefaultClient会无限阻塞;需区分网络错误与HTTP状态码,用自定义error类型携带上下文,并对可重试错误实施指数退避重试。
http.Client 超时与连接错误必须显式控制Go 的 http.DefaultClient 没有默认超时,一旦下游服务卡住或网络异常,http.Do() 会无限阻塞 goroutine。这不是“偶尔出错”,而是生产环境必现的资源泄漏点。
正确做法是始终使用自定义 http.Client,并设置 Timeout 或更精细的 Transport 级配置:
Timeout 控制整个请求生命周期(DNS + 连接 + 写请求 + 读响应)Transport 的 DialContext、ResponseHeaderTimeout 等字段client := &http.Client{
Timeout: 5 * time.Second,
Transport: &http.Transport{
DialContext: (&net.Dialer{
Timeout: 3 * time.Second,
KeepAlive: 30 * time.Second,
}).DialContext,
TLSHandshakeTimeout: 3 * time.Second,
},
}error 类型:网络错误 ≠ HTTP 状态码错误调用外部 API 后拿到的 err 和 resp.StatusCode 是两回事,混为一谈会导致逻辑漏洞。比如 resp.StatusCode == 500 是服务端错误,而 err != nil 很可能是 DNS 失败、连接被拒、TLS 握手失败等底层问题。
典型误判场景:
if err != nil { return err } 就返回,却忽略 resp 可能为 nil —— 此时再读 resp.StatusCode 会 panicresp.StatusCode >= 400 就认为是业务错误,但没处理 io.EOF 或 net/http: request canceled 这类可重试的临时错误url.Error 当作普通 error 忽略其 Err 字段里的底层原因(如 *net.OpError)resp, err := client.Do(req)
if err != nil {
var urlErr *url.Error
if errors.As(err, &urlErr) && urlErr.Err != nil {
// 检查底层错误是否是 net.OpError、context.DeadlineExceeded 等
if netErr, ok := urlErr.Err.(*net.OpError); ok && netErr.Op == "dial" {
log.Printf("network dial failed: %v", netErr)
}
}
return fmt.Errorf("http call failed: %w", err)
}
defer resp.Body.Close()
if resp.StatusCode >= 400 {
body, _ := io.ReadAll(resp.Body)
return fmt.Errorf("api returned %d: %s", resp.StatusCode, string(body))
}
只返回 fmt.Errorf("failed to call X: %w", err) 会让上层无法判断错误性质(是否可重试?是否要告警?是否要降级?)。Go 推荐用可识别的 error 类型做语义区分。
建议为每个外部依赖定义一组 error 变量或类型:
ErrServiceUnavailable:对应 503、连接拒绝、context.CanceledErrBadRequest:明确是客户端参数错误(400/422),不应重试Is() 方法,方便上层用 errors.Is(err, ErrServiceUnavailable) 判断type ServiceError struct {
Code int
Message string
Endpoint string
IsRetryable bool
}
func (e *ServiceError) Error() string {
return fmt.Sprintf("service %s failed with %d: %s", e.Endpoint, e.

Code, e.Message)
}var ErrServiceUnavailable = &ServiceError{IsRetryable: true, Code: 503}
// 使用示例
if resp.StatusCode == 503 {
return &ServiceError{
Code: 503,
Message: "service unavailable",
Endpoint: req.URL.String(),
IsRetryable: true,
}
}
for + time.Sleep
简单循环加固定延时(如 time.Sleep(100 * time.Millisecond))在真实场景中极易引发雪崩:多个服务同时失败 → 同步重试 → 请求洪峰打垮下游。
必须引入退避策略和终止条件:
backoff.Retry(github.com/cenkalti/backoff/v4)或 golang.org/x/time/rate 控制节奏net.OpError、context.DeadlineExceeded、503/504,**不重试 400/401/404**req.Context(),避免原 context 已 cancel 却还在发请求最常被忽略的一点:重试不等于“换个时间再试一次”,而是“换一种方式继续”。比如第一次用 JSON POST 失败,第二次可尝试带 X-Retry: true header 或切换到备用 endpoint。