线上Python服务异常时,应优先排查@cache装饰器导致的缓存不一致问题:检查是否使用@cache、参数是否可变或未重写__hash__、本地与线上执行环境差异,并通过禁用缓存、清空缓存或打印cache_info快速验证;修复需确保参数不可变、避免缓存依赖外部状态的函数,必要时改用带TTL的缓存方案,并预留运行时调试接口和监控指标。
线上 Python 服务出问题,别急着改代码、重启或查日志大海捞针。核心是:快速定位「哪段逻辑没按预期执行」,而 @cache(来自 functools)恰恰是个高频“隐形炸弹”——它让函数结果被缓存,但缓存不感知外部状态变化,极易导致线上行为和本地调试不一致。
很多线上 bug 表现为“数据明明更新了,接口返回还是旧的”,尤其在配置、数据库查询、时间敏感计算等场景。这不是逻辑错,是缓存没失效。
@lru_cache()、@cache 或自定义缓存装饰器__hash__ 的自定义类、或用了 datetime 但精度到秒而实际需要毫秒不改业务逻辑,快速验证是否缓存导致异常:
if os.getenv("DISABLE_CACHE"): return func(*args, **kwargs)
func.cache_clear() 在关键路径前手动清空(适合低频触发点)logger.info(f"Cache info: {func.cache_info()}"),看命中率、最大大小、当前条目数——如果 hits 高但结果错误,基本坐实不是所有地方都不能缓存,而是得让它“缓得明白”:
get_user_config() 应该主动监听变更,而非靠缓存)tuple 替代 list,用 dataclasses.frozen=True 或 NamedTuple 包装复杂参数@cache,改用带 TTL 的方案,比如 functools.lru_cache(maxsize=128, typed=False) 不够用,换成 dogpile.cache 或 redis + 过期时间@lru_cache(...); def f(...): logger.debug(f"Cache miss for {args}"),上线前删掉别等出事才翻代码。提前埋点能让问题收敛速度提升一个量级:
/debug/cache/status),返回 cache_i
nfo() 和最近几次调用参数/结果摘要atexit.register() 或信号处理(signal.signal(signal.SIGUSR1, ...))支持运行时清缓存,方便紧急干预