迭代器是实现__iter__()和__next__()方法的对象,支持按需遍历;生成器是用yield定义的函数,自动实现迭代器协议,二者均支持延迟加载与内存高效遍历。
Python中的迭代器和生成器是实现高效遍历与延迟加载的核心机制。它们不一次性把所有数据装入内存,而是按需产出,特别适合处理大文件、数据库游标、无限序列或计算开销大的场景。
迭代器是一个实现了__iter__()和__next__()两个方法的对象。调用__iter__()返回自身,__next__()每次返回一个元素,耗尽后抛出StopIteration异常。
class Countdown:
def __init__(self, start):
self.current = start
def __iter__(self):
return self
def __next__(self):
if self.current
raise StopIteration
self.current -= 1
return self.current + 1
for n in Countdown(3): print(n) # 输出:3 2 1
生成器函数使用yield关键字,每次执行到yield就暂停并返回值,下次调用继续从暂停处运行。Python自动为其生成__iter__和__next__方法。
def read_large_file(filepath):
with open(filepath, 'r') as f:
for line in f:
yield line.strip()
# 使用时按需取行
for line in read_large_file('huge.log'):
if 'ERROR' in line:
print(line)
当一个生成器需要复用另一个生成器的产出时,用yield from可避免手动循环yield,还能正确传递send()、throw()和close()信号。
def chain_generators(*gens):
for gen in gens:
yield from gen
gen1 = (x for x in [1, 2])
gen2 = (x for x in [3, 4])
for x in chain_generators(gen1, gen2): print(x) # 输出:1 2 3 4
化?生成器不是万能的——它只能遍历一次、无法索引、不能回退。但正是这些限制换来了内存与性能优势。