17370845950

新闻动态

Python多表数据合并技巧_merge与join实战【技巧】

用 merge 还是 join，取决于你手里的数据结构和索引状态——不是语法偏好问题，而是“谁当主表、谁提供键、键在不在索引里”这三个现实条件决定的。

merge 是 pandas 最通用的合并方式，不依赖索引，只要列名对得上就能连。适合绝大多数日常场景，尤其是两张表都靠普通列（比如 "user_id"、"order_no"）关联时。

pd.merge(df_orders, df_users, 
         left_on="user_id", right_on="id", 
         how="inner")

join 本质是基于索引的左连接（how="left"），速度快、写法短，但前提是至少有一边的连接键已经是索引。

df_orders.set_index("user_id").join(df_users.set_index("id"), how="left")

注意：join 默认按索引对齐，如果右表没设索引，它会拿右表的 index 去匹配左表索引——这常导致空结果，别踩这个坑。

看似简单，但参数一错就静默出错或返回意外行数。

on 和 left_on/right_on 不能混用：要么全用 on（字段名相同），要么明确分开写 left_on + right_on
suffixes 不加的话，同名列（如两表都有 "name"）会变成 "name_x"/"name_y"，容易漏改后续代码
validate="one_to_one" 或 "m:1" 可提前报错，避免因重复键导致行数爆炸（比如一个订单号在订单表出现 5 次，用户表出现 2 次，merge 后就是 10 行）

pd.merge(df_a, df_b, 
         on="key", 
         suffixes=("_a", "_b"),
         validate="m:1")

小数据（join 在索引对齐前提下比 merge 快 20%–40%，因为跳过了列查找逻辑。但别为了这点速度强行设索引——如果连接字段本来就不唯一，设索引反而触发 duplicate labels 错误。

真正容易被忽略的是：合并前先检查键的分布。用 df["key"].nunique() 和 len(df) 对比，确认是不是真的一对一，否则无论用哪个函数，结果都不可靠。