17370845950

Python文件系统操作实战_os与shutil综合使用【教程】
最稳的文件系统操作需直接使用os/shutil并明确函数边界:os.path.isdir()安全判目录,shutil.copy2()保留元数据,shutil.rmtree()递归删目录但需处理权限,os.walk()遍历时通过topdown控制修改顺序。

直接用 osshutil 做文件系统操作,不封装、不抽象,就是最稳的落地方式——但必须清楚每个函数的边界和副作用,否则删错目录、覆盖文件、权限丢失都是分分钟的事。

判断路径存在且是目录,别只用 os.path.exists()

os.path.exists() 只告诉你“这个路径有没有”,但可能是文件也可能是目录。真正想确认“它是个可遍历的目录”,得组合判断:

  • os.path.isdir(path) 才是安全的目录判定,它隐含了 exists 检查
  • os.path.isfile(path) 同理,专用于文件,不推荐用 exists + 后缀判断
  • 注意:符号链接默认不被 isdirisfile 认可,要判链接本身用 os.path.islink()
import os
path = "/tmp/data"
if os.path.isdir(path):
    print("可以安全调用 os.listdir()")
else:
    print("不是目录,别硬上")

shutil.copy()shutil.copy2() 的元数据差异很关键

复制文件时,默认 shutil.copy() 只保留内容和权限(mode),但不保留修改时间、访问时间、扩展属性等;而 shutil.copy2() 会尽可能复制所有元数据(包括 stat 信息)。

  • 备份、归档场景必须用 shutil.copy2(),否则时间戳全变成当前时间,影响增量逻辑
  • 跨文件系统复制时,copy2 仍可能丢部分扩展属性(如 SELinux context),需额外处理
  • 如果目标路径已存在且是目录,两个函数都会报 IsADirectoryError,不是静默覆盖
import shutil
shutil.copy2("/src/report.txt", "/dst/report.txt")  # 保留 mtime/atime

递归删除非空目录,优先选 shutil.rmtree(),但要注意权限陷阱

os.rmdir() 只能删空目录,真要删整个项目构建产物或缓存目录,必须用 shutil.rmtree()

  • 它默认忽略只读文件(比如 Git 生成的 .git/objects),靠内部的 onerror 回调处理
  • Windows 下若遇到正在被占用的文件(如日志被 tail 占着),会直接抛 PermissionError,无法自动跳过
  • 安全做法:加 ignore_errors=False(默认值),配合自定义 onerror 显式处理错误
import shutil
import os

def handle_removeerror(func, path, ): os.chmod(path, stat.S_IWRITE) func(path)

shutil.rmtree("/tmp/build", onerror=handle_remove_error)

os.walk() 遍历时修改目录结构要小心 yield 顺序

os.walk() 是深度优先、自顶向下遍历,但如果你在循环里动态删子目录或重命名父目录,后续迭代行为不可靠。

  • 想安全清理某类文件(如所有 *.pyc),用 topdown=True(默认),并在进入子目录前先处理当前层文件
  • 想批量重命名目录名,必须用 topdown=False,确保先处理叶子节点,再向上改父名,避免路径失效
  • dirs 列表可原地修改(如 dirs[:] = [d for d in dirs if not d.startswith('_')]),这是控制遍历范围的唯一合法方式
for root, dirs, files in os.walk(".", topdown=True):
    for f in files:
        if f.endswith(".log"):
            os.remove(os.path.join(root, f))

真正难的不是写对一行代码,而是理解 shutil.rmtree() 为什么删不掉某个目录,或者 os.path.isdir() 在容器里返回 False 却没报错——这时候得看挂载选项、UID 映射、procfs 权限,而不是再翻文档。