Python并发核心是任务调度与资源隔离的协同,需厘清事件循环、GIL、协程状态机边界;I/O密集用多线程或asyncio(配aiohttp),CPU密集用multiprocessing,混合型任务应分层处理。
Python并发系统的核心在于理解“任务调度”与“资源隔离”的关系,而不是单纯堆砌async/await或threading代码。第55讲聚焦两个关键:一是理清事件循环、GIL、协程状态机三者的协作边界;二是用真实I/O密集型场景(如批量API调用+本地文件写入)验证不同并发模型的实际吞吐差异。
asyncio.run()启动的默认事件循环,本质是一个单线程上的任务轮询器。它不执行CPU密集型操作,只负责在IO就绪、定时器触发、任务await挂起/恢复时切换协程。常见误区是以为await requests.get()会把网络请求交给事件循环处理——其实requests是同步阻塞库,它会让整个事件循环卡住。必须换用aiohttp或httpx.AsyncClient。
threading.Thread跑requests.get()或json.loads(),GIL确实存在,但影响微乎其微——因为这些操作大部分时间在等系统调用返回,GIL会被主动释放。真正被GIL锁死的是纯Python循环(如for i in range(10**7): x += i)。此时multiprocessing.Process才能绕过限制。
目标:并发抓取100个网页,提取标题和正文长度,去重后存入SQLite。要求总耗时
不复杂但容易忽略:并发数不是越多越好,要匹配目标服务的承受力和本机文件描述符上限。先从10起步,用time.time()打点观察TPS曲线,再逐步调优。