explode只对list/tuple/None有效,因底层将每行值视为可迭代对象展开;Series不可直接explode,需先转list,多列需合并后单次explode或用stack替代。
explode 底层按元素调用 pd.Series 构造逻辑,它会把每行值当作一个可迭代对象来展开。如果某列是 Series 对象(比如通过 apply(lambda x: pd.Series(...)) 生成),那它本身不可迭代(len(series) 是长度,但 for item in series 实际遍历的是 index-value 对),explode 就会报 TypeError: explode() missing 1 required positional argument: 'column' 或更隐蔽的 Valu。
实操建议:
df[col].apply(type).unique() 确认该列真实类型,别只看 print(df[col].head())
Series 列,必须先转成 list:用 df[col] = df[col].apply(lambda s: s.tolist() if isinstance(s, pd.Series) else s)
NaN 和 None 会被 explode 自动保留为一行空值,无需额外处理很多人试过 df.explode('col_a').explode('col_b'),结果发现第二列 explode 后,第一列被“撑开”了多次(即笛卡尔式重复),这不是 bug,而是 explode 每次都独立重排索引 —— 它不保证多列间元素位置对齐。
实操建议:
df['tmp'] = df.apply(lambda r: list(zip(r['col_a'], r['col_b'])), axis=1),然后 df.explode('tmp').assign(col_a=lambda x: x['tmp'].str[0], col_b=lambda x: x['tmp'].str[1]).drop(columns='tmp')
pd.concat + map 手动对齐:pd.concat([df.drop(['col_a','col_b'], axis=1), pd.DataFrame([pd.Series(a).explode().reset_index(drop=True) for a in df['col_a']]).T, pd.DataFrame([pd.Series(b).explode().reset_index(drop=True) for b in df['col_b']]).T], axis=1)(适合小数据)apply + zip,性能差;优先考虑 stack + reset_index 组合(见下一条)当原始嵌套数据来自 groupby().apply(list) 或 agg(list),且你需要保留分组键与子项顺序时,stack 比 explode 更可靠 —— 因为它天然维持层级关系。
实操建议:
df_grouped 是 df.groupby('id')['val'].apply(list) 的结果(返回 Series,index 是 id),直接 df_grouped.apply(pd.Series).stack().reset_index(name='val') 即可展开,且 level_1 自动成为序号列explode 后 json_normalize;改用 pd.json_normalize(df['col'].explode().tolist()),但要注意 explode().tolist() 会丢失原始索引,需提前 reset_index() 保存stack 对 NaN 友好,自动跳过;而 explode 遇到空 list 会生成 NaN 行,可能影响后续 groupby.size() 计数explode 是立即执行的复制操作:若某行 list 长度为 1000,就会复制该行其余所有列 1000 次。10 万行 × 平均长度 50 → 内存占用轻松破 GB。
实操建议:
df['col'].str.len().describe() 看长度分布,重点检查 max 和 99% 分位数explode;先 df.loc[df['col'].str.len() 截断长尾
pd.concat 分块:写个函数 yield 每行展开后的 chunk,再 pd.concat(list(generator), ignore_index=True),比一次性 explode 内存友好得多真正难的不是语法,是判断「该不该展开」——很多场景用 map + str.contains 或 apply(any) 就能绕过展开,省掉 90% 的计算和内存开销。