生成器是可暂停恢复的状态机:next()从上次yield继续执行,send(value)还传递value给上个yield;首次send必须为None;yield from实现协程双向通信;GeneratorExit触发finally清理;生成器表达式惰性求值省内存,列表推导式支持随机访问。
__next__ 和 send 到底怎么触发状态迁移生成器不是一次性执行完的函数,而是一个可暂停、可恢复的状态机。每次调用 __next__(或内置函数 next())时,它从上次 yield 暂停的位置继续执行,直到遇到下一个 yield 或函数结束。
而 send(value) 不仅会唤醒生成器,还会把 value 作为上一个 yield 表达式的返回值。注意:首次调用 send() 必须传 None,否则报 TypeError: can't send non-None value to a just-started generator。
next(gen) 或 gen.send(None),否则直接崩溃yield 左侧赋值(如 data = yield item)只在 send() 后生效;next() 相当于 send(None)
StopIteration),再调用任何方法都会引发 RuntimeError: generator already exhausted
def echo_gen():
while True:
received = yield "ready"
if received == "quit":
break
print(f"got: {received}")
g = echo_gen()
print(next(g)) # 输出 "ready"
print(g.send("hello")) # 输出 got: hello,返回 "ready"
g.send("quit") # 触发 break,下次 next 会 raise StopIteration
yield from 不只是语法糖,而是协程组合的关键原语yield from 不仅简化嵌套生成器的委托写法,更重要的是它建立了调用方、外层生成器、子生成器三者之间的双向通信通道——异常、return 值、send 数据都能穿透传递。
对比手写循环:for x in subgen: yield x 只能单向产出值,无法将外部 send 或 throw 透传给子生成器,也无法捕获子生成器的 return 值。
yield from subgen 会自动处理 StopIteration 并提取其 value 属性,作为当前表达式的返回值throw() 中断,外层生成器也会同步收到该异常(除非自己捕获)async/await 底层正是基于 yield from 构建的,所以理解它等于理解 await 的本质def sub():
yield 1
return "done"
def top():
result = yield from sub() # result = "done"
print(f"sub returned: {result}")
yield 2
g = top()
print(next(g)) # 1
print(next(g)) # 2
此时 sub 已 return,top 中 print 执行,然后抛出 StopIteration("done")
GeneratorExit 异常和 finally 块的真实执行时机当生成器对象被垃圾回收、或显式调用 close() 时,解释器会向其抛出 GeneratorExit 异常。这个异常不能被常规 except Exception: 捕获,必须显式写 except GeneratorExit:,且**禁止在该 except 块中 yield** —— 否则触发 RuntimeError。
更可靠的做法是把清理逻辑放在 finally 块里,它保证在生成器退出前(无论正常结束、close()、还是未捕获异常)都会执行。
GeneratorExit 是 BaseException 子类,不属于 Exception 体系,所以 except: 或 except Exception: 都抓不到finally 是最安全的资源释放位置,但要注意:若 finally 中发生未捕获异常,会覆盖原始的 GeneratorExit
close() 是唯一标准方式主动终止生成器并触发清理;不要依赖 GC 时间点def risky_gen():
try:
yield "working"
finally:
print("cleanup done") # close()、StopIteration、或异常退出时都会执行
g = risky_gen()
print(next(g))
g.close() # 输出 "cleanup done"
生成器表达式((x*2 for x in range(10**6)))和列表推导式([x*2 for x in range(10**6)])的核心差异不在语法,而在内存占用模型:前者是惰性求值的迭代器,后者是一次性分配并填充完整列表。
当数据量大、或下游只消费部分元素时,生成器明显胜出;但若需要多次遍历、随机索引、或长度判断(len()),就必须用列表——因为生成器只能单向消费一次,且没有长度属性。
len()、index()、切片([1:5])等操作list(gen) 会得到空列表(第二次已耗尽)真正该用生成器的场景:读大文件逐行处理、数据库游标流式获取、实时传感器数据管道、递归结构的深度优先遍历……这些都不是“省几MB内存”的问题,而是“不这么做就爆内存或阻
塞”的刚需。