Python字符串去空格需按场景选择方法:strip()等仅处理首尾ASCII空白;全角空格需显式传参;replace()/translate()适合批量删特定字符;正则re.sub()最灵活,可处理逻辑空格及不可见字符。
Python 里消除字符串空格不是只有一个 strip() 就完事的——它根本不能去掉中间的空格,而你真正需要的,往往取决于空格出现在哪、要不要保留换行、是否要统一多个空格为一个,甚至是否要兼容全角空格。
strip()、lstrip()、rstrip() 去掉首尾空白(但仅限 ASCII 空白)这三个方法只影响字符串开头和/或结尾,且默认只识别 ' '、'\t'、'\n'、'\r'、'\f'、'\v' 这六种字符。它们对中文全角空格 、不间断空格 (U+00A0)、零宽空格等完全无效。
常见错误现象:用 s.strip() 处理从网页或 Excel 里读出的字符串,结果首尾看着“空”却去不掉——大概率是全角空格或零宽字符。
s.lstrip()
s.rstrip()
s.strip(' \t\n\r\xA0\u3000')(其中 \u3000 是中文全角空格)replace() 或 translate() 批量删特定空格字符当你明确知道要干掉哪几种空格(比如所有制表符、所有全角空格),replace() 最直观;但若要一次替换多种字符,translate() 效率更高,尤其处理长文本时。
使用场景:清洗爬虫返回的 HTML 文本、处理用户粘贴进来的富文本、标准化日志字段。
s.replace(' '
, '').replace('\t', '').replace('\u3000', '') —— 简单直接,适合少量字符s.translate(str.maketrans('', '', ' \t\n\r\xA0\u3000')) 第三个参数是“要删除的字符集”translate() 不支持正则,也不能替换成别的字符(那是 str.translate(table) 的用法)re.sub() 处理“逻辑空格”:合并中间空格、删所有空白、保留换行等真正灵活的空格控制,必须靠正则。比如“把连续多个空白(含换行)缩成一个空格”,或者“只删空格和制表符,但保留换行”,strip() 和 replace() 都做不到。
性能影响:短字符串几乎无感;但循环中高频调用 re.sub(r'\s+', ' ', s) 可能成为瓶颈,建议预编译正则对象。
re.sub(r'\s+', '', s)
re.sub(r'\s+', ' ', s).strip()
re.sub(r'[ \t]+', '', s)
re.UNICODE 标志以确保匹配 Unicode 空白(如 \u3000):re.sub(r'\s+', ' ', s, flags=re.UNICODE)
很多“看起来没空格却匹配失败”的问题,根源是零宽空格 \u200B、字节顺序标记 BOM \ufeff、软连字符 \u00AD。它们不显示,但参与字符串比较、正则匹配、JSON 解析,甚至导致 == 判断为 False。
容易被忽略的地方:从 Word、微信、某些 CMS 复制的文本,或 UTF-8 with BOM 编码的文件,极易带入这类字符。
[c for c in s if ord(c) 可揪出低码值控制字符
s.translate(str.maketrans('', '', '\u200B\u200C\u200D\uFEFF\u00AD'))encoding='utf-8-sig' 自动剥离 BOM,比手动 strip 更可靠