17370845950

新闻动态

< 返回列表当前位置：首页 > 新闻动态 > 技术教程

Python大文件读取策略_内存优化说明【指导】

读大文件应分块读、边读边处理以控制内存：按行读适合文本，用for line in f；分块读适合二进制，用f.read(chunk_size)；mmap适合随机访问；生成器封装提升复用性；注意及时关闭文件、清理对象并监控内存。

读大文件时别一次性 read()，内存会爆。核心思路是“分块读、边读边处理”，让内存占用稳定在可控范围。

按行读取：适合文本日志、CSV等逐行可处理的场景

用 for line in f: 最省内存，Python 内部做了缓冲优化，不会把整文件加载进内存。

确保文件以文本模式打开（encoding 指定编码，避免解码错误）
遇到超长行（如单行几百MB）要加保护，可用 f.readline(max_bytes) 限制单行长度
若需跳过头部或按条件过滤，直接在循环里 continue 或 break，不额外存中间数据

分块读取：适合二进制文件、固定格式或需自定义解析的场景

用 f.read(chunk_size) 手动控制每次读多少字节，典型 chunk_size 取 8192（8KB）到 65536（64KB）之间较均衡。

太小（如 1B）会导致系统调用频繁，IO 效率低
太大（如 100MB）失去内存控制意义，接近全读
读取后立即处理或写入，处理完清空变量（如 chunk = None），帮助 GC 回收

内存映射（mmap）：适合随机访问、重复读同一区域的大文件

mmap 把文件“映射”成内存地址空间，操作系统按需加载页，不占 Python 堆内存。

适用于数据库文件、大型索引、图像头信息提取等场景
注意 Windows 下 mmap 对打开模式敏感（需 r+ 或 copy_on_write 配置）
不要对 mmap 对象做 list() 或 str() 全转，会触发全加载

用生成器封装逻辑：提升复用性与可读性

把读取+解析逻辑封装成生成器函数，调用方按需迭代，语义清晰且天然流式。

例如：def read_csv_chunks(path, chunk_size=1000): 每次 yield 一个 DataFrame 分块
生成器内部用 csv.reader 配合 itertools.islice 控制行数，比 pandas 的 chunksize 更轻量
异常处理放在生成器内（如某块编码失败，可记录并跳过，不影响后续）

不复杂但容易忽略：关闭文件、及时 del 大对象、监控 psutil.Process().memory_info().rss 看实际内存走势，比理论更可靠。

赣ICP备2024031479号