Python文件乱码的核心原因是源文件编码与解释器读取编码不一致;需统一使用UTF-8(无BOM)、在前两行声明# -- coding: utf-8 --,并对外部文件IO显式指定encoding参数。
Python文件出现乱码,核心原因是源代码文件的编码格式与Python解释器读取时默认或声明的编码不一致。最常见的是文件实际保存为UTF-8(含BOM或不含BOM),但未声明编码,或被误判为GBK/CP936等本地编码,导致中文字符解析失败。
Python 3 默认使用UTF-8读取源文件,但这个“默认”仅在文件没有BOM且不含coding声明时生效;一旦文件以BOM开头(如Windows记事本保存的UTF-8),部分环境可能错误识别为其他编码;而Python 2 默认ASCII,必须显式声明编码,否则遇到中文直接报错SyntaxError。
终端、IDE、编辑器各自的编码设置也会干扰——比如PyCharm设为GBK,但文件是UTF-8无BOM,就可能显示乱码(虽然运行正常);反过来,文件是UTF-8带BOM,终端不支持BOM,也可能显示异常。
在Python源文件第一行或第二行添加编码声明注释,格式严格:
utf-8 -*-(推荐,兼容性强)避免乱码,关键在“统一源头”:
这类错误多发生在读取外部文本文件(如txt、csv)时,和源码编码无关,需单独处理:
不复杂但容易忽略:编码问题本质是“信息传递链”中任一环节失配。从编辑器保存、源码声明、解释器读取到文件IO操作,每一步保持UTF-8(无BOM)+ 显式声明 + 显式指定,就能覆盖95%的乱码场景。