HTTP请求真实耗时需用httptrace.ClientTrace拆解DNS、TLS、连接、读写等各阶段;关键在Transport配置(复用、超时、Body关闭),而非仅看总耗时。
Go 的 http.Client 默认不暴露各阶段耗时,光看 time.Since(start) 只能得到总时间,无法区分是 DNS、TLS、连接建立、写请求体、读响应头还是读响应体拖慢了。必须用 httptrace.ClientTrace 才能拆解。
*httptrace.GotConnInfo、*httptrace.DNSDoneInfo 等结构,字段名直白,比如 ConnReused 能立刻判断是否复用了连接http.Transport,确保它没禁用 trace——默认开启,但若手动设置了 Transport.DialContext 却没透传 ctx,DNS 和连接阶段 trace 会丢失trace := &httptrace.ClientTrace{
DNSStart: func(info httptrace.DNSStartInfo) {
log.Printf("DNS start: %s", info.Host)
},
DNSDone: func(info httptrace.DNSDoneInfo) {
log.Printf("DNS done: %+v", info)
},
ConnectStart: func(network, addr string) {
log.Printf("Connect start: %s %s", network, addr)
},
GotConn: func(info httptrace.GotConnInfo) {
log.Printf("Got conn: reused=%t, was_idle=%t, idle_time=%v",
info.Reused, info.WasIdle, info.IdleTime)
},
}
req, _ := http.NewRequest("GET", "https://api.example.com/v1/data", nil)
req = req.WithContext(httptrace.WithClientTrace(req.Context(), trace))
re
sp, err := http.DefaultClient.Do(req)即使启用了 trace,你也可能看到大量 ConnReused=false,说明连接没复用。这不是 Go 的 bug,而是 http.Transport 的几个关键字段被设得太保守或压根没配。
MaxIdleConns 控制全局最多保持多少空闲连接;MaxIdleConnsPerHost 控制每个 host 最多保持多少——两者默认都是 100,但如果你设成 0 或 1,复用率会断崖下跌IdleConnTimeout 默认是 30s,但如果后端服务主动断连更快(比如 Nginx 的 keepalive_timeout 5s),客户端还傻等 30 秒才清理,下次请求就得新建连接ForceAttemptHTTP2:设为 false 且目标服务支持 HTTP/2 时,Go 可能降级走 HTTP/1.1,而 HTTP/2 天然多路复用,对高并发小请求更友好client := &http.Client{
Transport: &http.Transport{
MaxIdleConns: 200,
MaxIdleConnsPerHost: 200,
IdleConnTimeout: 5 * time.Second, // 匹配后端 keepalive timeout
ForceAttemptHTTP2: true,
},
}很多人只设 http.Client.Timeout,以为万事大吉。但这个 timeout 是“从 Do 开始到响应 body 读完”的总时限,不覆盖 DNS 解析、TLS 握手等前置环节。结果就是:DNS 被污染卡住、服务端 TLS 证书异常、中间代理僵死——这些都会让请求挂满默认的 30 秒(甚至更久),而 Timeout 根本没触发。
http.Transport.DialContext 控制拨号(含 DNS + TCP 连接)超时;用 TLSHandshakeTimeout 控制 TLS 握手;再用 ResponseHeaderTimeout 限制从连接建立到收到响应头的时间ExpectContinueTimeout 容易被忽略:当请求体较大且服务端支持 100-continue 时,客户端会先发 header 等确认,这个等待也有超时,默认 1s,太短可能误判,太长又拖慢 POSTtransport := &http.Transport{
DialContext: (&net.Dialer{
Timeout: 3 * time.Second,
KeepAlive: 30 * time.Second,
}).DialContext,
TLSHandshakeTimeout: 3 * time.Second,
ResponseHeaderTimeout: 3 * time.Second,
ExpectContinueTimeout: 1 * time.Second,
}这是最隐蔽也最致命的性能坑:resp.Body 不关,底层连接不会归还给连接池,fd 持续增长,最终 dial tcp: lookup xxx: no such host 或 too many open files 报错。而且 Go 1.19+ 对未读完的 body 会自动缓冲到内存,大响应体直接 OOM。
defer resp.Body.Close(),哪怕你只读前几字节或直接丢弃响应ioutil.ReadAll 或 io.Copy,确保它们返回后再关;不要在 if err != nil 分支里漏掉 Close
resp.Body = http.NoBody 替代 nil,避免某些中间件误判;但真正要丢弃 body 时,仍需 io.Copy(io.Discard, resp.Body) 再关resp, err := client.Do(req)
if err != nil {
return err
}
defer resp.Body.Close() // 必须放在这里,不是在 if 后面
if resp.StatusCode != 200 {
io.Copy(io.Discard, resp.Body) // 清空 body 避免连接滞留
return fmt.Errorf("bad status: %d", resp.StatusCode)
}
body, err := io.ReadAll(resp.Body)
if err != nil {
return err
}
真正卡顿往往不在代码逻辑,而在 transport 层配置与网络环境的错配。trace 数据、连接复用率、超时分段、body 关闭——这四点串起来,80% 的 HTTP 性能问题都能定位到具体环节。别依赖 “感觉慢”,把每个阶段的时间数字打出来,比任何猜测都管用。