str.strip()仅去除首尾空白字符,无法处理中间多余空格;需用re.sub(r'\s+', ' ', s).strip()压缩中间空白,或'split()+join'实现全空白规范化。
很多人一上来就用 str.strip(),结果发现中间的多余
空格还在。它只处理字符串开头和结尾的空白字符(包括 ' '、'\t'、'\n'),对中间的连续空格或制表符完全没影响。
常见错误现象:
" hello world ".strip() # 结果是 "hello world",中间四个空格原封不动
re.sub(r'\s+', ' ', s).strip()
s.replace(' ', '') 更快更安全strip() 不接受正则,也不能指定只删某类空白;传参只能是字符集合,比如 s.strip(' \t\n')
当字符串里混着空格、制表符、换行符、全角空格('\u3000'),或者要保留段落结构只规范化单词间空隙时,re.sub 是实际项目中最可靠的方案。
使用场景举例:清洗用户输入、解析日志行、预处理 NLP 文本
import re s = "hello\t\tworld\n\n python " cleaned = re.sub(r'\s+', ' ', s).strip()→
"hello world python"
re.sub(r' +', '', s)
re.sub(r'[\s\u3000]+', ' ', s).strip()
' '.join(s.split()) 看似简单,其实是 Python 里最常用也最容易被低估的去空格方式。它的效果等价于「把所有空白(含换行、制表符)当分隔符切开,再用单个空格拼回去」。
关键点在于:str.split() 不带参数时会自动忽略所有空白并丢弃空字段,所以 " a \t\n b ".split() 直接得到 ['a', 'b']。
re 模块,语义清晰,性能不错'\n' 拆再逐行 join
s.split(' ')(显式传空格)效果完全不同,它不会合并连续空格,也不处理 \t 或 \n
如果你确定只要干掉 ASCII 空格,或某几个特定字符,str.replace() 是最快的内置方法;而 str.translate() 在批量删多种字符时性能优势明显。
s.replace(' ', '')s.replace(' ', '').replace('\t', '')(简单但略啰嗦)table = str.maketrans('', '', ' \t\n\r')
s.translate(table)translate() 不支持正则,但比多次 replace() 快;maketrans() 第三个参数是待删除字符组成的字符串真正容易被忽略的是:不同方法对 Unicode 空白的处理差异很大。比如 strip() 和 split() 默认都识别 \u3000(中文空格),但 replace(' ', '') 完全不碰它。线上文本清洗出问题,十次有八次是因为这个。