Kafka适合强顺序、高吞吐、跨机房容灾场景,需正确配置acks=all、Version和Return.Successes;NSQ轻量零依赖,部署简单但需手动处理重连与连接复用。
Go 项目里选 Kafka 还是 NSQ,取决于你是否需要强顺序、高吞吐、跨机房容灾。Kafka 更重,NSQ 更轻;Kafka 依赖 ZooKeeper(或 KRaft 模式),NSQ 零依赖、单二进制即可跑通。
acks=all,否则大概率丢消息很多线上事故都源于默认配置——sarama.NewConfig() 的 Producer.RequiredAcks 默认是 sarama.NoResponse,即发完就不管了。哪怕 Broker 挂了,SendMessage 也返回成功。
sarama.WaitForAll,确保 ISR(同步副本)全部写入才返回config.Producer.Return.Successes = true 要打开,否则 SendMessage 不返回 partition/offset,也没法做幂等校验config.Version,比如用 Kafka 3.6+ 却配 sarama.V0_10_0_1,会静默失败或报 UNKNOWN_TOPIC_OR_PARTITION
config := sarama.NewConfig() config.Version = sarama.V3_6_0 // 匹配你的 Kafka 版本 config.Producer.RequiredAcks = sarama.WaitForAll config.Producer.Return.Successes = true config.Producer.Timeout = 10 * time.Secondproducer, err := sarama.NewSyncProducer([]string{"localhost:9092"}, config) if err != nil { log.Fatal("NewSyncProducer failed:", err) } defer producer.Close()
msg := &sarama.ProducerMessage{ Topic: "orders", Value: sarama.StringEncoder("order_id=12345"), } partition, offset, err := producer.SendMessage(msg)
nsq.Producer 的连接复用和重连策略NSQ 不需要 ZooKeeper,nsqd 单进程启动即用,适合中小团队快速验证异步解耦场景。但它

github.com/nsqio/go-nsq 默认不自动重连,网络抖动后容易卡死。
nsq.NewProducer 创建后,需调用 Connect(),并监听 Err channel 处理断连Producer,它内部维护 TCP 连接池,应全局复用nsqlookupd 做服务发现,Producer 初始化时要传 LookupAddresses,否则无法自动发现 topiccfg := nsq.NewConfig() cfg.DialTimeout = 2 * time.Second cfg.OutputBufferSize = 1024p, _ := nsq.NewProducer("127.0.0.1:4150", cfg) p.SetLogger(nil, nsq.LogLevelError)
// 必须手动处理连接异常 go func() { for err := range p.Err() { log.Printf("NSQ producer error: %v", err) // 这里可触发告警或降级逻辑 } }()
err := p.Publish("user_events", []byte(
{"uid":1001,"action":"login"}))
advertised.listeners、ZooKeeper 状态、server.properties 中的 broker.id
本地跑不通 Kafka,90% 是网络配置问题。Kafka 不是“启动了就能连”,它会把 advertised.listeners 里的地址告诉客户端——如果填的是 localhost,而 Go 程序跑在 Docker 容器里,必然连不上。
advertised.listeners=PLAINTEXT://127.0.0.1:9092,避免 DNS 解析问题echo stat | nc localhost 2181 应返回状态信息;若报 Connection refused,说明 ZooKeeper 没起来broker.id 在集群中必须唯一;单机测试可固定为 0,但删掉 logs 目录后务必清空 meta.properties,否则启动报错 Cluster ID mismatch
真正难的不是“怎么连上”,而是“怎么连得稳”。Kafka 的 ack 策略、NSQ 的心跳超时、Go 客户端的连接池大小——这些参数不调到业务水位线以上,压测一跑就暴露。别信“默认能用”,线上每个 config 字段背后都是血泪经验。