Python多进程需用if name == '__main__':保护主模块,否则spawn方式下子进程重复导入导致递归或失败;Pool.map适合同构批量阻塞处理,apply_async适用于异步单任务;共享状态须用Value、Array、Manager或Lock等IPC机制,禁用全局变量。
Python 多进程不是“开多个线程就能并行”的简单替换,multiprocessing 模块背后依赖操作系统级的进程创建(fork 或 spawn),数据不共享、通信需显式设计、启动开销大——这些特性直接决定你能不能真正压榨 CPU,而不是写出一堆假并行代码。
Process 启动后不执行目标函数?常见于 Windows 或 macOS 上使用 spawn 启动方式时,主模块未加 if __name__ == '__main__': 保护。子进程重新导入模块,导致重复触发 Process(...).start(),形成无限递归或静默失败。
if __name__ == '__main__': 块内fork 可能“侥幸”通过,但跨平台代码必须守这条规则AttributeError: Can't get attribute 'worker' on
Pool 的 map 和 apply_async 到底怎么选?Pool.map 是阻塞式批量分发,适合输入数据同构、处理逻辑一致、且你愿意等全部结果;apply_async 是非阻塞单任务提交,适合任务耗时差异大、需要提前响应、或要动态控制并发数。
map 内部会自动切分可迭代对象,但整个调用会阻塞直到所有子任务完成apply_async 返回 AsyncResult 对象,需手动调用 .get(timeout=...) 获取结果,超时抛 multiprocessing.TimeoutError
spawn 方式下会序列化失败,改用普通函数 + 显式参数传递别直接用全
局变量,它在每个进程中是独立副本。真要共享,得用 multiprocessing 提供的同步原语:
multiprocessing.Value(标量)或 multiprocessing.Array(一维数组),支持 ctypes 类型,如 Value('i', 0)
multiprocessing.Manager() 创建代理对象(dict, list, Namespace),但性能较差,因为走进程间通信(IPC)multiprocessing.Semaphore、Lock 或 Event,避免竞态;Lock 必须在子进程中显式 acquire/release,不能依赖 with 语句自动释放(某些 spawn 场景下上下文管理器失效)from multiprocessing import Process, Value, Lockdef worker(sharedcounter, lock): for in range(1000): with lock: # 安全递增 shared_counter.value += 1
if name == 'main': counter = Value('i', 0) lock = Lock() processes = [Process(target=worker, args=(counter, lock)) for _ in range(4)] for p in processes: p.start() for p in processes: p.join() print(counter.value) # 输出 4000
真正难的从来不是启动几个进程,而是判断哪些数据必须隔离、哪些可以共享、共享时要不要加锁、加锁会不会拖慢整体吞吐——这些决策没标准答案,得看你的数据规模、CPU 密集度、IO 占比和错误容忍度。