Golang多协程爬虫核心在于可控并发与调度,而非盲目开goroutine;应采用worker pool模式,固定worker数(如10–50),通过带缓冲channel分发URL任务。
用 Golang 写多协程爬虫,核心不是“开很多 goroutine”,而是控制并发、避免重复、处理失败、管理状态——关键在调度和收敛,不在数量。
直接对每个 URL 启动 goroutine 很容易把目标站打挂,也容易被封或触发限流。推荐用 worker pool 模式:固定数量的工作协程(比如 10–50 个),从任务队列里取 URL 执行抓取。
chan string 做 URL 队列(可带缓冲,如 make(chan string, 1000))for i := 0; i
爬虫不加去重,几秒内就会爆炸式生成重复请求,浪费资源还可能死循环。建议用两种结构组合:
sync.Map 或 map[string]struct{} + sync.RWMutex 存已抓过的 URL(适合中小规模)sha256(url)),重启后不丢状态默认 http.DefaultClient 没超时、没连接池限制、没 User-Agent,极易被识别为爬虫或耗尽本地 fd。
&http.Client{Timeout: 10 * time.Second}
&http.Transport{MaxIdleConns: 100, MaxId
leConnsPerHost: 100, IdleConnTimeout: 30 * time.Second}
go-fake-useragent)time.Sleep(100 * time.Millisecond)),但优先靠 worker pool 限速网络超时、404、503、DNS 失败、HTML 解析异常……每种错误策略不同:
time.Sleep(time.Second )
chan error 汇总,主流程监听并统计基本上就这些。Golang 并发爬虫不复杂,但容易忽略收敛和韧性——重点不在“快”,而在“稳”和“可持续”。