17370845950

Golang并发爬虫怎么实现_Golang并发网络请求实战
限流是关键,需用带缓冲的channel模拟信号量控制并发数,避免内存暴涨、IP被封、DNS耗尽等问题,核心在于可控并发而非无节制启动goroutine。

goroutine + channel 控制并发数,别直接起成百上千个

无节制启 goroutine 是最常见错误:内存暴涨、被目标站封 IP、DNS 耗尽。必须限流。核心不是“能并发”,而是“可控并发”。semaphore 本质就是带缓冲的 chan struct{},每发一个请求前先 ,完成后 sem 。

  • 缓冲大小即最大并发数,比如 sem := make(chan struct{}, 10) 表示最多同时 10 个请求
  • 所有请求逻辑必须包裹在 func() { 中,否则漏释放会卡死
  • 别用 time.Sleep 模拟限速——它不释放 goroutine,只是挂起;真限速要用 time.Ticker 配合 channel

http.Client 必须复用,且设置超时和连接池

每次 new http.Cl

ient 会新建底层 Transport,导致 TCP 连接无法复用、TIME_WAIT 爆满、DNS 查询重复。默认 client 的 DefaultTransport 虽然有连接池,但参数极保守(MaxIdleConns=100),爬虫场景下远远不够。

  • 显式构造 http.Client,并配置 TransportMaxIdleConnsMaxIdleConnsPerHost 建议设为 200~500
  • 必须设 Timeout(总超时)、IdleConnTimeout(空闲连接保持时间)、TLSHandshakeTimeout,否则慢响应或 TLS 卡住会拖垮整个池
  • 如果目标站支持 HTTP/2,确保 Go 版本 ≥1.6 且服务端开启,能显著降低连接开销

URL 去重和任务分发用 map[string]struct{} + sync.Map,别用全局锁

爬虫最耗时的不是网络,是重复请求和锁竞争。用 map[string]struct{} 存已抓 URL 是最小开销方案(struct{} 零字节),但普通 map 不支持并发读写。

  • 高频写入场景(如解析出大量新链接)用 sync.Map,注意它的 LoadOrStore 返回值是 value, loaded bool,要靠 loaded 判断是否已存在
  • 不要把去重逻辑塞进主 goroutine;把新发现的 URL 发到一个专用去重 channel,由单个 goroutine 统一处理并分发给 worker
  • 如果需要持久化去重(重启不丢),改用 boltbadger,但会引入 IO 延迟,需权衡

错误处理不能只打日志,要区分可重试与不可重试

net/http 错误类型杂乱:DNS 失败、连接拒绝、TLS 握手超时、HTTP 4xx/5xx、body 读取中断……全丢进重试队列只会让问题恶化。

  • 不可重试:400、401、403、404、410、429(Too Many Requests)、501、505 —— 这些是语义明确的失败,重试无意义
  • 可重试:临时性错误如 net.OpError(连接超时、拒绝)、url.Error(timeout、EOF)、500/502/503/504 —— 但建议加退避(exponential backoff),最多重试 2~3 次
  • 所有 error 都要记录原始 err.Error() 和 URL,否则排查时根本不知道卡在哪一环

真正难的不是并发模型,而是如何让每个请求既快又稳:连接复用是否生效、DNS 缓存有没有穿透、TLS 握手是否被干扰、目标站反爬策略怎么绕过——这些都得靠日志+指标+真实响应体分析,光靠 goroutine 数量解决不了。