最常用方式是用字典指定列与函数映射,支持单列单函数、单列多函数(生成多级索引)及命名聚合(如agg(sales_sum=('sales','sum'))避免嵌套),需确保函数返回标量且key不冲突。
直接对 groupby 结果调用 agg(),并传入一个字典,键是列名,值是聚合函数(可为字符串、函数或函数列表)。这是最常用也最清晰的方式。
{'sales': 'sum', 'price': 'mean'}
{'sales': ['sum', 'count'], 'price': 'max'},结果列名会自动变成多级索引(('sales', 'sum'))columns.droplevel(0) 或用命名元组方式(见下一条)'min')、NumPy 函数(np.std)、自定义函数(需接受 Series 并返回标量)当一列需要多个聚合函数,又不想让结果列名带多级索引时,用 pd.NamedAgg(pandas ≥ 0.25)或元组形式(旧版本兼容)更可控。
agg(sales_sum=('sales', 'sum'), sales_cnt=('sales', 'count'), price_avg=('price', 'mean'))
sales_sum、sales_cnt、price_avg,无嵌套agg([('sales_sum', 'sum'), ('sales_cnt', 'count')]),但仅适用于单列;多列需拼字典 + 元组组合,较易出错ValueError: duplicate names
如果原始 DataFrame 列很多,而你只关心其中几列的聚合,先用 [...] 选列再 groupby().agg(...),能减少内存占用和计算开销。
df[['group_key', 'A', 'B', 'C']].groupby('group_key').agg({'A': 'sum', 'B': 'mean'})

df.groupby(...).agg({...}) 中只写部分列名,其余列不会报错但会被静默丢弃——容易误以为“没生效”,其实是被过滤了df[['A','B']].groupby('category')),会抛 KeyError: 'category',必须确保 key 列已包含在前一步选择中在 agg 字典里混用 lambda x: x.max() - x.min() 和 np.ptp 看似等价,但实际行为可能不同。
lambda 接收的是每个分组的 Series,所以 x.max() - x.min() 安全;但若写成 lambda x: x['col'].max() 就会报错(x 已是 Series,无列索引)np.ptp 默认不跳过 NaN,而 lambda x: x.max() - x.min() 会受 skipna=True 设置影响(默认开启),结果可能不一致np.mean)比 lambda 快得多;复杂逻辑建议封装成独立函数并加上 @numba.jit 或用 apply 分离处理真正容易被忽略的是:当字典里某列对应函数返回不是标量(比如返回 list、Series 或 DataFrame),agg 会静默失败或降级为 apply 行为,输出结构不可控。务必确认每个聚合函数对任意非空分组都返回单一标量值。