默认 logging 不能直接输出 JSON,因其 Formatter 将日志拼为字符串且字段不可控;需自定义 Formatter 子类重写 format(),过滤不可序列化字段、处理异常堆栈、用 json.dumps() 输出合法 JSON,并通过 LoggerAdapter 或 Filter 注入 trace_id 等上下文字段。
Python 标准库的 logging 默认使用 Formatter,它把日志拼成字符串,字段顺序、类型、嵌套结构都不可控。想让日志变成 JSON,关键不是“加个参数”,而是替换掉格式化逻辑——必须自定义一个继承自 logging.Formatter 的类,重写 format() 方法,让它返回合法 JSON 字符串。
核心是:在 format() 中提取 record.__dict__,剔除不可序列化的字段(比如 exc_info、stack_info),再把异常和堆栈转成字符串后塞进新字典,最后用 json.dumps() 输出。常见错误是直接 dump 整个 record.__dict__,结果遇到 threading.Lock 或函数对象就报 TypeError: Object of type Lock is not JSON serializable。
exc_info、stack_info、msg(原始格式化字符串)、args(未格式化的元组)这些非基础类型字段self.formatException(record) 和 self.formatStack(record) 获取可序列化的异常/堆栈字符串ensure_ascii=False 和 separators=(',', ':') 减少体积record.created 或 datetime.fromtimestamp(record.created),别依赖 record.asctime(那是字符串,且格式不统一)结构化日志的价值在于关联请求链路,但 logging.Record 默认不带上下文字段。不能靠全局变量或线程局部存储硬塞——并发下会错乱。正确做法是用 LoggerAdapter 或 Filter 动态注入字段。
LoggerAdapter 最简单:初始化时传入 extra={'trace_id': 'xxx'},之后所有 logger.info() 调用都会自动带上该字段request.headers.get('X-Request-ID')),必须写自定义 Filter,在 filter(record) 里设置 record.trace_id = get_current_trace_id()
format() 中显式读取,否则不会出现在输出里本地开发时用 FileHandler 配 JSON Formatter 没问题,但上生产常被忽略三点:
RotatingFileHandler + delay=True,或改用 QueueHandler + 单独写入进程indent=2,也别把多条日志 dump 到一个大 JSON 数组里json.dumps() 有性能开销,可考虑用 ujson 替代标
json(需自行测兼容性)JSON Formatter 不难写,难的是字段一致性、上下文注入时机、以及多进程下的输出可靠性——这三个地方出问题,日志就既不好查,也不好解析。