Python多维分析核心是理清“维度—指标—过滤—聚合”逻辑链;优先据目标选groupby().agg()、pivot_table()或crosstab(),再用其参数精准控制行列、值与聚合方式。
用Python做多维度数据分析,核心不是堆砌代码,而是理清“维度—指标—过滤—聚合”的逻辑链条。Pandas 的 pivot_table 是最直接的入口,但真正高效的关键在于:先想清楚你要回答什么问题,再选对方法——透视表不是万能的,有时 groupby + agg 更灵活,有时 crosstab 更简洁。
数据透视本质是重排+聚合。比如你想看“各地区、各季度的销售额与利润对比”,那地区和季度就是行/列维度,销售额和利润是值字段,需指定聚合函数(如 sum)。如果目标是“每个用户在不同产品类别的购买频次分布”,更适合用 pd.crosstab 直接生成频数交叉表。
groupby().agg()
pivot_table()
pd.crosstab() 更轻量直观pivot_table 不难,但容易卡在参数组合上。重点盯住四个参数:
['region', 'year'])'category',会自动展开为多列)['sales', 'profit']){'sales': 'sum', 'profit': 'mean'})遇到空值?默认填 NaN,加 fill_value=0 即可补零;想看合计行/列?加上 margins=True,自动生成 All 行列。
实际数据常不规整,几个高频问题有解法:
dropna=False 或先用 groupby().agg() 做预聚合
想保留原始明细又加汇总:不用硬套 pivot_table,用 pd.concat([df, df.groupby(...).sum().add_suffix('_total')], axis=1) 拼接更可控df['quarter'] = df['date'].dt.to_period('Q') 构造新列,再进透视透视表返回的是 DataFrame,后续可直接链式操作:
div(df.sum(axis=1), axis=0) 得行占比,或 div(df.sum(), axis=1) 得列占比style.background_gradient() 可视化to_excel 时设置 merge_cells=True 保持多级索引格式基本上就这些。别一上来就写 pivot_table,先在纸上画个表格草稿——哪是行、哪是列、哪是数字、要怎么算,思路清楚了,代码自然就顺了。