17370845950

新闻动态

如何用 Pandas 高效统计分类变量频次并重构为交叉汇总表

本文介绍三种简洁高效的 pandas 方法，将含 yes/no 等分类响应的问卷数据按问题维度统计频次，并输出结构化汇总表（行=响应类型，列=问题编号），避免手动循环，兼顾可读性与扩展性。

在处理问卷类结构化数据时，常需将宽表格式的分类响应（如 Yes/No）按字段聚合统计，生成便于可视化或下游分析的交叉频次表。原始数据通常以 Client_Id 为主键、各问题为列；目标则是转换为以响应类别为行索引、问题列为列的二维汇总表。下面提供三种推荐方案，分别适用于不同场景：

✅ 方案一：布尔求和法（最简高效，仅限二元分类）

当响应值严格为两类（如 'Yes' 和 'No'），且逻辑清晰时，可直接构造布尔矩阵后求和：

import pandas as pd

# 假设 df 是原始 DataFrame
questions = df.filter(like='Question')  # 提取所有 Question_* 列
yes_counts = questions.eq('Yes').sum()  # 每列中 'Yes' 的数量
no_counts = len(df) - yes_counts        # 自动推导 'No' 数量

# 构建结果 DataFrame
out = pd.DataFrame({'Yes': yes_counts, 'No': no_counts}).T
out.index.name = 'Response'

✅ 优点：计算极快、代码极简、内存友好；
⚠️ 注意：仅适用于明确二元且互斥的分类（如无空值或其它取值），否则需先清洗。

✅ 方案二：melt + value_counts（通用稳健，推荐首选）

无需预设类别，自动识别所有唯一响应值，适合多分类或存在未知标签的场景：

questions = df.filter(like='Question')
out = (questions
       .melt(var_name='Question', value_name='Response')  # 变长格式：(Question, Response)
       .value_counts(['Response', 'Question'])            # 分组计数
       .unstack('Question', fill_value=0)                 # 行=Response，列=Question
       .rename_axis(index=None, columns=None)             # 清除轴名称
      )

✅ 优点：完全自动化、兼容任意数量响应类别（如 'Yes', 'No', 'N/A'）、抗脏数据；
? 提示：unstack() 默认按字典序排列列名，如需固定顺序（如 Question_1 → Question_4），可在 filter() 后显式指定列：

questions = df[['Question_1', 'Question_2', 'Question_3', 'Question_4']]

✅ 方案三：crosstab（语义清晰，专为交叉表设计）

Pandas 内置的交叉表函数，语义最贴近业务需求，代码意图一目了然：

questions = df.filter(like='Question')
stacked = questions.stack()  # Series: (client_idx, question) → response
out = pd.crosstab(stacked, stacked.index.get_level_values(1))
out.index.name = 'Response'
out.columns.name = None

✅ 优点：专为频次交叉设计，支持归一化（normalize=True）、加权统计等高级参数；
? 扩展：若需百分比形式，可追加 .apply(lambda x: x / x.sum(), axis=1).round(3)。

? 最终效果与注意事项

所有方法均输出统一结构：

     Question_1  Question_2  Question_3  Question_4
Yes           1             2             3           2
No            2             1             0           1

务必先检查缺失值：df.isna().sum()，value_counts(dropna=False) 可保留 NaN 统计，但 crosstab 默认忽略 NaN；
列名一致性：确保 filter(li
ke='Question') 匹配预期列；若列名不规范，建议先用 df.columns.str.contains('Q\d+', regex=True) 精准筛选；
性能提示：百万级数据优先选方案一（布尔向量化）；中小规模数据推荐方案二，兼顾健壮性与可读性。

掌握这三种方法，你不仅能快速完成频次汇总，更能根据数据质量与业务需求灵活选择最优路径——告别 for 循环，拥抱向量化表达。

17370845950

✅ 方案一：布尔求和法（最简高效，仅限二元分类）

✅ 方案二：melt + value_counts（通用稳健，推荐首选）

✅ 方案三：crosstab（语义清晰，专为交叉表设计）

? 最终效果与注意事项

关于我们

服务项目

广告推广

案例欣赏