17370845950

新闻动态

如何在 Pandas DataFrame 中对指定列批量提取逗号前的首段字符串

本文介绍一种简洁、健壮的 python 方法，使用 pandas 的 `str.split().str[0]` 对所有字符串型列自动提取逗号分隔后的第一部分，同时安全保留非字符串列（如数值、类别型）不变。

在实际数据处理中，常遇到类似 20.15,20.15 或 '10,10' 这类重复值拼接的字符串字段。若需统一提取每行中逗号前的首个子串（即去重取首），最直接高效的方式是按数据类型筛选 + 向量化字符串操作，而非逐列手动指定或使用易出错的 apply 函数。

以下是一个推荐的通用函数实现：

def extract_first_before_comma(df):
    """
    对 DataFrame 中所有 object 类型列执行：以 ',' 分割字符串，并取首段。
    数值型、布尔型等非字符串列保持原样（包括 int/float/delta 列）。
    """
    df_copy = df.copy()  # 避免修改原始数据
    for col in df_copy.columns:
        if df_copy[col].dtype == 'object':
            # 安全转换为字符串（兼容含 None/NaN 的列），再分割取首
            df_copy[col] = df_copy[col].astype(str).str.split(',').str[0]
    return df_copy

# 使用示例
result_df = extract_first_before_comma(df)
print(result_df)

✅ 关键优势说明：

✅ 类型安全：仅作用于 object 类型列（通常是字符串或混合类型），跳过 int64、float64、bool 等数值列（如本例中的 delta 列），避免类型错误；
✅ 容错性强：astype(str) 确保即使列中存在 None 或 NaN，也不会报错（NaN 转为字符串 'nan'，后续 .str.split(...).str[0] 仍返回 'nan'，行为可预期）；
✅ 高效向量化：全程使用 Pandas 内置字符串方法，无需 apply() 或循环 Python 函数，性能远优于逐行处理；
✅ 简洁可维护：逻辑清晰，无硬编码列名，适用于任意结构的 DataFrame。

⚠️ 注意事项：

若某
object 列中存在纯数字但未被识别为数值类型（如 '42' 而非 42），该函数仍会正确处理；

若需更严格的“仅处理含逗号的字符串列”，可增强条件判断：

if (df_copy[col].dtype == 'object' and 
    df_copy[col].astype(str).str.contains(',', na=False).any()):
    df_copy[col] = df_copy[col].astype(str).str.split(',').str[0]

不建议使用 df.apply(stringsplitter) 原始写法——apply 默认按列轴（axis=0）调用，而 stringsplitter 未适配此上下文，且未返回新列，会导致 TypeError 或静默失败。

综上，该方案兼顾鲁棒性、可读性与执行效率，是清洗此类“逗号拼接重复值”场景的标准实践。

17370845950

关于我们

服务项目

广告推广

案例欣赏