17370845950

新闻动态

Pandas 中如何用列名列表批量传递多列数据给 apply 函数

在 pandas 中，可通过列名列表配合 df[cols].apply() 和解包操作符 *，简洁高效地将任意数量的列值作为参数传入自定义函数，避免手动逐列书写。

当处理包含数十列的数据集时，若需将其中若干列（如 A 到 J 共 10 列）整体传入一个自定义函数进行行级计算，硬编码 x.A, x.B, ..., x.J 不仅冗长易错，也严重损害可维护性。此时，推荐采用「列名列表 + 列选择 + 解包调用」的组合方案。

核心思路是：*先用列表指定目标列名，再通过 df[cols] 提取子 DataFrame，最后在 apply() 中使用 `lambda x: func(x)完成位置参数的动态解包**。注意：*x在axis=1` 模式下会将当前行（Series）的值按列顺序展开为位置参数，与函数形参严格一一对应。

以下是一个完整示例：

import pandas as pd
import numpy as np

np.random.seed(26)
df = pd.DataFrame(np.random.randint(10, size=(3, 3)), columns=list('ABC'))
print("原始数据：")
print(df)
#    A  B  C
# 0  5  6  0
# 1  1  6  3
# 2  0  4  2

def myfunction(a, b, c):
    return a + 2*b - c  # 示例：线性组合

cols = ['A', 'B', 'C']
df['result'] = df[cols].apply(lambda x: myfunction(*x), axis=1)
print("\n添加计算结果后：")
print(df)
#    A  B  C  result
# 0  5  6  0      17
# 1  1  6  3      10
# 2  0  4  2       6

✅ 关键要点说明：

列名列表 cols 必须与函数形参顺序完全一致（如 myfunction(a,b,c) 要求 cols = ['A','B','C']）；
df[cols].apply(..., axis=1) 返回的是每行的标量或元组，确保函数返回类型与目标列兼容；
若函数需接收关键字参数而非位置参数，可改用 lambda x: myfunction(**x.to_dict())，但需保证列名与参数名完全匹配；
性能提示：对大数据集，优先考虑向量化操作（如 df['A'] + 2*df['B'] - df['C']），apply + lambda 属于 Python 级循环，速度较慢。

该方法兼顾灵活性与可读性，是 Pandas 行级多列处理的标准实践之一。

17370845950

关于我们

服务项目

广告推广

案例欣赏