掌握pandas需直击三大核心机制:索引对齐(按标签而非位置匹配)、链式赋值陷阱(用.loc/.iloc替代df'col'=x并开启chained_assignment警告)、copy与view的隐式行为(df.copy()默认浅拷贝,深拷贝需显式指定deep=True)。
这标题不是学习路线,是营销包装。真正要掌握 pandas,得绕开“第221讲”这类伪进度标识,直击它最常出问题的三个核心机制:索引对齐、链式赋值陷阱、以及 copy 与 view 的隐式行为。
df['col'][0] = x 有时不生效?——链式赋值的静默失败这是新手掉进最多次的坑。看似在改数据,实际可能改的是临时副本,原 DataFrame 毫无变化。
df['col'][0] 先触发列选择(返回 Series),再触发位置索引(返回标量或视图),中间可能断开引用链.loc 或 .iloc 替代:写成 df.loc[0, 'col'] = x 才保证原地修改pd.options.mode.chained_assignment = 'warn',后续链式赋值会抛 SettingWithCopyWarning
df.copy() 到底复制了什么?——浅拷贝默认,深拷贝要显式指定df.copy() 默认是浅拷贝(deep=False),只复制索引和列名结构,内部数组仍共享内存。改副本的数值,原 DataFrame 可能跟着变。
df.copy(deep=True)
df._mgr.blocks[0].values is df_copy._mgr.blocks[0].values 查底层数组 id(不推荐生产用,但调试时有效)query()、loc[...] 等操作返回的常是视图(view),不是副本(copy),改它们等于改原数据用 pd.concat([df1, df2]) 或 df1.join(df2) 时,结果行数比预期多或少,大概率是索引没对齐,而非数据丢失。
concat 默认沿轴拼接并保留所有索引标签,重复标签不会自动去重join 默认是左连接,但匹配依据是索引名,不是行号;若 df1.index = [0,1,2],df2.index = ['a','b','c'],直接 join 得到全空结果pd.concat([df1, df2], ignore_index=True) 重置整数索引import pandas as pd
df1 = pd.DataFrame({'A': [1, 2]}, index=['x', 'y'])
df2
= pd.DataFrame({'B': [3, 4]}, index=['y', 'z'])
# join 按索引标签对齐 → 只有 'y' 匹配,结果 1 行
result = df1.join(df2, how='inner') # A B
# y 2 3索引对齐、视图/副本边界、链式赋值——这三个点不厘清,学再多“案例”也挡不住真实分析中突然崩掉的 ValueError 或静默错误。它们藏在文档深处,却决定你写的每一行 pandas 代码是否真正可靠。