用WHERE+时间戳字段做增量判断最常用,需建有效索引、用>而非>=防重复、统一时区、逻辑删除或CDC捕获删除、主表时间字段过滤、游标分页替代OFFSET、复合索引支持排序、预留缓冲窗口防时钟漂移。
WHERE + 时间戳字段做增量判断最常用绝大多数业务表都有 updated_at 或 create_time 字段,这是实现增量同步最直接的依据。关键不是“有没有”,而是“索引是否有效”和“边界是否严谨”。
WHERE updated_at > '2025-06-01 00:00:00',不能用 >=,否则重复拉取上一批最后一条(尤其高并发更新场景)timestamp without time zone,跨服务同步前先对齐时钟或统一转为 UTC 存储纯靠 updated_at 拉不到已删数据,所以物理删除无法被下游感知。常见解法只有两个,没有中间路线:
is_deleted 字段 + deleted_at,同步 SQL 改为 WHERE updated_at > ? OR deleted_at > ?
binlog(格式必须为 ROW),PostgreSQL 开 logical replication,SQL Server 开 Change Data Capture——这些能捕获 INSERT/UPDATE/DELETE 全事件JOIN 多表同步时,增量字段必须来自主表且可索引比如同步订单+订单项,想按订单更新时间增量拉,就不能写 SELECT * FROM orders o JOIN order_items i ON o.id = i.order_id WHERE i.updated_at > ?——这会漏掉“订单更新但子项没动”的情况,且 i.updated_at 索引对主表无加速作用。
orders)的 updated_at 过滤,再关联子表;如需子表变更也触发同步,得单独建子表的增量任务latest_item_updated_at 冗余字段,由应用层或触发器维护MAX(i.updated_at) 聚合后过滤:GROUP BY 会让索引失效,大数据量下变成慢查询OFFSET 分页导致的漏数据或重复用 LIMIT 1000 OFFSET 10000 做分批同步,在并发写入场景下极易漏行或重复——因为 OFFSET 是基于当前快照计数,而新数据插入会挤占位置。
WHERE updated_at > '2025-06-01 10:00:00' ORDER BY updated_at, id LIMIT 1000,每次用上一批最后一条的 (updated_at, id) 当下一批起点INDEX idx_updated_id (updated_at, id),否则排序仍走 filesortid 或数据库序列值做第二排序字段,别依赖 updated_at 单独排序(同一秒可能多条)实际中最容易被忽略的是时钟漂移和事务可见性:上游事务提交时间和 binlog 写入时间有微小延
