Python迭代器是__iter__和__next__构成的协议;__iter__必须返回含__next__的对象,否则报“not iterable”;生成器函数用yield更简洁安全;itertools迭代器多为一次性;生成器表达式省内存但不可索引、不可重用。
Python 迭代器不是语法糖,是 __iter__ 和 __next__ 两个方法共同构成的协议;不实现它,for 循环、list()、sum() 等内置操作就无法消费你的对象。
__iter__ 还报 TypeError: 'X' object is not iterable
常见错误是只实现了 __iter__,但返回值不是迭代器对象(即没有 __next__ 方法)。
__iter__ 必须返回一个具备 __next__ 方法的对象 —— 可以是自身(此时类还要实现 __next__),也可以是另一个迭代器实例(如 iter(list))self 是最简方式,但必须同时定义 __next__,且内部要维护状态(如索引、游标),并在耗尽时抛出 StopIteration
iter(some_list) 更安全,适合数据已存在、无需懒加载的场景90% 的自定义迭代需求,用 yield 写生成器函数比手动实现双下方法更清晰、不易出错。
generator 对象,它原生支持迭代协议self.index 或重置逻辑return 或函数结束,自动抛 StopIteration,无需手动判断def countdown(n):
while n > 0:
yield n
n -= 1
直接用于 for 循环或构造 list
for i in countdown(3):
print(i) # 3, 2, 1
list(countdown(2)) # [2, 1]
itertools 里哪些迭代器是“一次性”的?几乎所有 itertools 返回的对象都是单次迭代器:用完即空,再次遍历时不再产出任何值。
itertools.chain(a, b)、itertools.filterfalse(...)、itertools.islice(...) 都属于此类itertools.tee(it, n) 复制多个独立迭代器(注意内存开销)list(it); sum(it) → 第二步 sum 得到 0,因为 it 已被第一次 list 耗尽生成器表达式((x*2 for x in range()比等价的列表推导式(
1000))[x*2 for x in range(1000)])省内存,但两者都不是“更快”——只是延迟计算时机不同。
__next__ 时算一个值;列表推导式一上来就全算完、全存进内存list
len() 或索引访问,这是设计使然,不是 bug真正容易被忽略的是迭代器的“不可逆性”:没有标准方法让它倒带或重播,除非你自己封装缓冲逻辑或用 itertools.tee。别指望 iter(obj) 每次都给你新起点。