Python性能优化需结合解释器行为、内存模型与瓶颈分析;timeit易失真,应优先用cProfile和line_profiler定位真实热点;列表扩容、lru_cache滥用、CPython固有开销是常见陷阱。
Python性能优化不是靠堆砌技巧,而是理解解释器行为、内存模型和常见瓶颈的组合。没有“万能加速方案”,但有几条路径能覆盖 90% 的实际场景。
timeit 测出来的快,线上反而更慢?本地单次调用 timeit 忽略了 GC 压力、缓存预热、多线程竞争和系统调度抖动。尤其当代码涉及 I/O、字典扩容或对象频繁创建时,timeit 结果会严重失真。
python -m cProfile -s cumulative your_script.py 替代纯 timeit,看真实调用栈耗时分布@profile(需 line_profiler),定位到某一行的 CPU 占用psutil 监控 memory_info().rss 和 cpu_percent(),而非仅看执行时间list.append() 很快,但为什么批量追加还卡?单次 append 是均摊 O(1),但底层数组扩容(reallocate)是 O(n)。如果初始容量太小,反复扩容会引发大量内存拷贝——比如从空列表开始追加 100 万个元素,可能触发 20+ 次扩容。
[None] * n 或 list(range(n)) 占位,再按索引赋值(适用于长度确定场景)collections.deque 替代 list 做高频插入/追加(无扩容开销,但随机访问变慢)result = result + [item] —— 这是 O(n²),每次生成新列表functools.lru_cache 反而更耗内存?lru_cache 缓存的是函数调用的 *全部参数组合* 对应的返回值。如果参数含不可哈希类型(如 dict、list),会直接报 TypeError;如果参数是大型对象(如 pandas DataFrame、numpy array),缓存本身就会吃光内存。
lru_cache
maxsize=128 或更小,避免无限制增长;设为 None 时等于无限缓存,风险极高cache_info() 定期检查命中率:if cache_info().misses > cache_info().hits * 5,说明缓存基本没起作用有些性能短板来自 CPython 设计本身,绕不开,只能换策略:
for i in range(10**7): —— range 对象虽不占内存,但 Python 字节码仍要逐次装入 i 并做引用计数,比 C 循环慢数十倍;改用 numpy.arange() + 向量化obj.x、obj.y)—— 每次触发 descriptor 查找;热点代码中提前解包:x, y = obj.x, obj.y
math.sqrt)—— 每次都要走模块命名空间查找;改为局部导入:from math import sqrt 或 sqrt = math.sqrt
def hot_loop(data):
# ❌ 慢:反复查 math 模块 + 全局变量
import math
result = []
for x in data:
result.append(math.sqrt(x))
return result
def hot_loop_fast(data):
✅ 快:局部变量 + 避免 append 扩容
from math import sqrt
sqrt_data = [sqrt(x) for x in data] # 列表推导自动预估容量
return sqrt_data
真正卡住性能的,往往不是某行代码多慢,而是你没意识到它被调用了多少次、参数是否稳定、内存是否在悄悄泄漏。先抓 cProfile 输出里 top
3 函数,再看它们的参数特征和调用上下文——这比背优化口诀有用十倍。