17370845950

Pandas 中如何用列名列表批量传递多列数据给 apply 函数

在 pandas 中,可通过列名列表配合 df[cols].apply() 和解包操作符 *,简洁高效地将任意数量的列值作为参数传入自定义函数,避免手动逐列书写。

当处理包含数十列的数据集时,若需将其中若干列(如 A 到 J 共 10 列)整体传入一个自定义函数进行行级计算,硬编码 x.A, x.B, ..., x.J 不仅冗长易错,也严重损害可维护性。此时,推荐采用「列名列表 + 列选择 + 解包调用」的组合方案。

核心思路是:*先用列表指定目标列名,再通过 df[cols] 提取子 DataFrame,最后在 apply() 中使用 `lambda x: func(x)完成位置参数的动态解包**。注意:*x在axis=1` 模式下会将当前行(Series)的值按列顺序展开为位置参数,与函数形参严格一一对应。

以下是一个完整示例:

import pandas as pd
import numpy as np

np.random.seed(26)
df = pd.DataFrame(np.random.randint(10, size=(3, 3)), columns=list('ABC'))
print("原始数据:")
print(df)
#    A  B  C
# 0  5  6  0
# 1  1  6  3
# 2  0  4  2

def myfunction(a, b, c):
    return a + 2*b - c  # 示例:线性组合

cols = ['A', 'B', 'C']
df['result'] = df[cols].apply(lambda x: myfunction(*x), axis=1)
print("\n添加计算结果后:")
print(df)
#    A  B  C  result
# 0  5  6  0      17
# 1  1  6  3      10
# 2  0  4  2       6

关键要点说明

  • 列名列表 cols 必须与函数形参顺序完全一致(如 myfunction(a,b,c) 要求 cols = ['A','B','C']);
  • df[cols].apply(..., axis=1) 返回的是每行的标量或元组,确保函数返回类型与目标列兼容;
  • 若函数需接收关键字参数而非位置参数,可改用 lambda x: myfunction(**x.to_dict()),但需保证列名与参数名完全匹配;
  • 性能提示:对大数据集,优先考虑向量化操作(如 df['A'] + 2*df['B'] - df['C']),apply + lambda 属于 Python 级循环,速度较慢。

该方法兼顾灵活性与可读性,是 Pandas 行级多列处理的标准实践之一。