17370845950

Python 对象的内存布局与引用计数解析
Python对象头含ob_refcnt和ob_type字段,普通对象头16字节,可变长对象额外有ob_size;引用计数增减取决于是否获得新引用,del仅减计数不保证立即释放,小整数和字符串缓存会干扰观察。

Python 对象头里藏着什么

每个 Python 对象在内存中都以 PyObject 或其子结构(如 PyVarObject)开头,这是 CPython 实现的底层约定。对象头固定包含两个字段:ob_refcnt(引用计数)和 ob_type(指向类型对象的指针)。对普通对象(比如 intstr),头大小是 16 字节(64 位系统下);可变长对象(如 list)额外带一个 ob_size 字段记录元素个数。

你可以用 sys.getsizeof() 粗略看对象总开销,但它不包括所引用对象的内存(比如 list 中元素本身);真正布局细节得查 CPython 源码里的 Include/object.h

常见误区:以为 id() 返回的是“地址偏移”,其实它返回的是对象首字节地址(在 CPython 中等价于 &PyObject),但这个值不能直接做指针运算——你没拿到真正的 C 指针,且解释器可能启用地址空间布局随机化(ASLR)。

引用计数怎么增减,哪些操作会漏掉

CPython 用引用计数做主要内存管理,但不是所有赋值或传参都会让计数+1。关键看是否“拥有新引用”:

  • x = y:仅当 y 是新绑定到局部/全局变量时,y 的引用计数才+1;如果是函数参数传入,调用时已由解释器在栈帧中完成计数更新
  • append()extend()__setitem__ 等容器操作:会为存入的对象增加引用计数
  • del x 或变量离开作用域:减少引用计数;若降为 0,立即触发 tp_dealloc
  • gc.collect() 不影响引用计数逻辑——它只处理循环引用,而循环引用中的对象引用计数永远 >0

容易踩的坑:ctypes 或 C 扩展中手动调用 Py_INCREF/Py_DECREF 忘记配对,会导致悬垂指针或提前释放;还有闭包捕获变量时,即使外层函数返回,内层函数仍持有所需对象的引用,计数不会降为 0。

为什么 del 不一定立刻释放内存

del x 只是解除名字绑定并减少引用计数,是否真正释放取决于该对象是否还有其它活跃引用。例如:

a = [1, 2, 3]
b = a
del a  # 此时 b 仍持有引用,列表对象未释放
print(b)  # [1, 2, 3],正常输出

更隐蔽的情况是隐藏引用:

  • 异常帧中保留了局部变量(sys.exc_info() 活跃时)
  • 装饰器、lambda、生成器表达式中形成的闭包引用
  • weakref 不影响计数,但强引用哪怕只在一个 dict 的键里(如 {obj: 42}),也会阻止释放

验证方式:打印 sys.getrefcount(obj)(注意这个函数调用本身会让计数临时+1,结果要减 1 才准)。

小整数与字符串的缓存机制干扰观察

为了性能,CPython 对小整数(默认 -5 到 256)和短字符串做了驻留(interning),导致看似不同的变量实际指向同一对象:

x = 100
y = 100
print(x is y)  # True —— 引用同一对象,引用计数至少为 2

这种共享会让引用计数行为不符合直觉。绕过方法:

  • int("100")eval("100") 构造非驻留整数(但不推荐用于生产)
  • 字符串用拼接打破驻留:s1 = "hello" + ""s2 = "hello" 可能不同(取决于编译期优化)

  • 调试时优先用自定义类实例,避免内置类型缓存干扰

真正想看清引用变化,最好从一个干净的模块开始,禁用交互式环境缓存,并用 gc.disable() 排除分代回收干扰。