用Go纯内存实现并发重试队列:通过channel分发任务,worker goroutine执行,失败后按带jitter的指数退避策略延迟重试,用最小堆或定时器调度,sync.Map与原子操作保障状态安全,并集成日志、expvar指标和健康检查。
用 Go 构建并发重试队列,核心是把“失败任务”放进带优先级/延迟的队列里,再用一组 goroutine 并发拉取、执行、失败后按策略退避重试。不靠第三方中间件(如 Redis + Celery),纯内存+标准库也能做出轻量可靠的重试系统。
最简模型:一个无缓冲 channel 接收待执行任务,多个 worker gorout
ine 从 channel 拉取并执行;失败时,把任务包装成带下次执行时间的结构体,扔进一个最小堆(用 container/heap)或定时器集合中;另起 goroutine 监听堆顶/定时器,到期后重新推回任务 channel。
直接固定间隔重试容易打爆下游服务。推荐用带 jitter 的指数退避:delay = base × 2^retryCount + rand(0, base)。Go 标准库没内置,但几行就能写出来:
func nextDelay(base time.Duration, attempt int) time.Duration {
delay := base * time.Duration(1<当任务量大、worker 数多时,多个 goroutine 可能同时操作同一任务的状态(比如更新重试次数、判断是否超限)。别用普通 map + mutex 全局锁——用 sync.Map 存任务 ID → 任务状态,并配合 atomic 更新尝试次数:
生产环境必须知道“谁卡住了、重试了几次、堆积了多少”。不用引入 Prometheus SDK 也能快速补上:
基本上就这些。不复杂但容易忽略细节——比如忘记 stop timer 导致 goroutine 泄漏,或没处理 panic 让 worker 意外退出。加一层 defer recover + context.WithTimeout 就稳多了。