默认的 http.Client 不会自动重试,仅在极少数 HTTP/2 场景内部重发帧,业务层需手动实现重试逻辑,包括错误判断、请求复制、指数退避与上下文控制。
http.Client 不会自动重试Go 标准库的 http.Client 在遇到网络错误(如连接超时、DNS 失败、TLS 握手失败)时会直接返回错误,不会重试。它只在极少数 HTTP/2 场景下对某些可重试帧做内部重发,但这不等价于业务层的请求重试逻辑。
这意味着:如果一次 client.Do(req) 返回 context.DeadlineExceeded 或 net.OpError,你就得自己决定是否重发、重发几次、间隔多久。
http.Transport 的 MaxIdleConns 等参数影响连接复用,但和重试无关最可控的方式是封装一层重试逻辑,配合 context 控制总超时与取消,用指数退避避免雪崩。
func doWithRetry(client *http.Client, req *http.Request, maxRetries int) (*http.Response, error) {
var resp *http.Response
var err error
for i := 0; i <= maxRetries; i++ {
resp, err = client.Do(req)
if err == nil {
return resp, nil
}
// 只对可重试错误重试:连接类、临时性错误
if !isRetryableError(err) {
return nil, err
}
if i == maxRetries {
break
}
// 指数退避:100ms, 200ms, 400ms...
time.Sleep(time.Duration(100*math.Pow(2, float64(i))) * time.Millisecond)
}
return resp, err}
func isRetryableError(err error) bool {
if urlErr, ok := err.(*url.Error); ok {
if netErr, ok := urlErr.Err.(net.Error); ok && netErr.Temporary() {
return true
}
}
return strings.Contains(err.Error(), "timeout") ||
strings.Contains(err.Error(), "connection refused") ||
strings.Contains(err.Error(), "i/o timeout")
}
req 复制一份再传入 client.Do(),避免 Body 被 consume 后无法重放(特别是含 bytes.Reader 或 strings.Reader 时)req.Clone(context.Background()) 安全复制请求(含 Header、Body、URL),但注意 Body 需要能重复读(如用 bytes.NewBuffer 构造)req.Header,可能导致并发问题golang.org/x/time/rate + backoff 更可靠手写退避容易出错(比如没处理 jitter、没限制最大间隔)。更稳妥的做法是用成熟 backoff 库,例如 github.com/cenkalti/backoff/v4。
import "github.com/cenkalti/backoff/v4"func doWithBackoff(client http.Client, req http.Request) (*http.Response, error) { operation := func() error { resp, err := client.Do(req) if err != nil { if
isRetryableError(err) { return err } return backoff.Permanent(err) // 永久失败,不再重试 } resp.Body.Close() // 注意:这里只是检查,实际使用需按需读取 return nil }
b := backoff.WithContext(backoff.NewExponentialBackOff(), req.Context()) return nil, backoff.Retry(operation, b)}
backoff.Retry 自动处理 jitter、max interval、stop conditionbackoff.WithContext 绑定请求上下文,防止重试失控operation 中缓存 *http.Response 到闭包变量,而非仅返回 errorMaxElapsedTime
很多重试逻辑上线后才暴露问题,往往卡在这几个细节上:
req.Body 是 io.ReadCloser,一旦读过就不可重放 —— 必须用可重播 Body(如 bytes.NewReader(buf) 或封装成自定义 ReadSeeker)http.Client.Timeout 或 http.Transport.DialContext 超时,导致单次请求卡死,整个重试流程 hang 住真正健壮的重试,不是“多试几次”,而是“在正确的时间、对正确的错误、用正确的方式试”。尤其是微服务调用链中,上游重试 + 下游重试 + 负载均衡重试叠加,很容易放大故障。