17370845950

如何用 Pandas 高效统计分类变量频次并重构为交叉汇总表

本文介绍三种简洁高效的 pandas 方法,将含 yes/no 等分类响应的问卷数据按问题维度统计频次,并输出结构化汇总表(行=响应类型,列=问题编号),避免手动循环,兼顾可读性与扩展性。

在处理问卷类结构化数据时,常需将宽表格式的分类响应(如 Yes/No)按字段聚合统计,生成便于可视化或下游分析的交叉频次表。原始数据通常以 Client_Id 为主键、各问题为列;目标则是转换为以响应类别为行索引、问题列为列的二维汇总表。下面提供三种推荐方案,分别适用于不同场景:

✅ 方案一:布尔求和法(最简高效,仅限二元分类)

当响应值严格为两类(如 'Yes' 和 'No'),且逻辑清晰时,可直接构造布尔矩阵后求和:

import pandas as pd

# 假设 df 是原始 DataFrame
questions = df.filter(like='Question')  # 提取所有 Question_* 列
yes_counts = questions.eq('Yes').sum()  # 每列中 'Yes' 的数量
no_counts = len(df) - yes_counts        # 自动推导 'No' 数量

# 构建结果 DataFrame
out = pd.DataFrame({'Yes': yes_counts, 'No': no_counts}).T
out.index.name = 'Response'

✅ 优点:计算极快、代码极简、内存友好;
⚠️ 注意:仅适用于明确二元且互斥的分类(如无空值或其它取值),否则需先清洗。

✅ 方案二:melt + value_counts(通用稳健,推荐首选)

无需预设类别,自动识别所有唯一响应值,适合多分类或存在未知标签的场景:

questions = df.filter(like='Question')
out = (questions
       .melt(var_name='Question', value_name='Response')  # 变长格式:(Question, Response)
       .value_counts(['Response', 'Question'])            # 分组计数
       .unstack('Question', fill_value=0)                 # 行=Response,列=Question
       .rename_axis(index=None, columns=None)             # 清除轴名称
      )

✅ 优点:完全自动化、兼容任意数量响应类别(如 'Yes', 'No', 'N/A')、抗脏数据;
? 提示:unstack() 默认按字典序排列列名,如需固定顺序(如 Question_1 → Question_4),可在 filter() 后显式指定列:

questions = df[['Question_1', 'Question_2', 'Question_3', 'Question_4']]

✅ 方案三:crosstab(语义清晰,专为交叉表设计)

Pandas 内置的交叉表函数,语义最贴近业务需求,代码意图一目了然:

questions = df.filter(like='Question')
stacked = questions.stack()  # Series: (client_idx, question) → response
out = pd.crosstab(stacked, stacked.index.get_level_values(1))
out.index.name = 'Response'
out.columns.name = None

✅ 优点:专为频次交叉设计,支持归一化(normalize=True)、加权统计等高级参数;
? 扩展:若需百分比形式,可追加 .apply(lambda x: x / x.sum(), axis=1).round(3)。

? 最终效果与注意事项

所有方法均输出统一结构:

     Question_1  Question_2  Question_3  Question_4
Yes           1             2             3           2
No            2             1             0           1
  • 务必先检查缺失值:df.isna().sum(),value_counts(dropna=False) 可保留 NaN 统计,但 crosstab 默认忽略 NaN;
  • 列名一致性:确保 filter(li

    ke='Question') 匹配预期列;若列名不规范,建议先用 df.columns.str.contains('Q\d+', regex=True) 精准筛选;
  • 性能提示:百万级数据优先选方案一(布尔向量化);中小规模数据推荐方案二,兼顾健壮性与可读性。

掌握这三种方法,你不仅能快速完成频次汇总,更能根据数据质量与业务需求灵活选择最优路径——告别 for 循环,拥抱向量化表达。