strlen按字节计算,mb_strlen按字符计算;处理中文时应使用mb_strlen并指定UTF-8编码,避免乱码与长度误判。
在PHP中,strlen 和 mb_strlen 都用于计算字符串的长度,但它们处理字符的方式不同,尤其在涉及中文、日文、韩文等多字节字符时表现差异明显。
strlen 函数将字符串视为字节序列,返回的是字符串所占用的字节数,而不是字符数。
对于ASCII字符(如英文、数字),每个字符占1个字节,所以结果与字符数一致。但对于UTF-8编码下的中文字符,每个汉字通常占用3或4个字节,这时 strlen 会把一个汉字算作多个字节,导致“长度”变大。
示例:
$str = "hello世界"; echo strlen($str); // 输出 11
解释:h e l l o 占5字节,"世" 和 "界" 各占3字节,共6字节,总计11字节。
mb_strlen 是多字节安全的函数,用于正确计算字符串中的字符数量,支持多种编码,如 UTF-8、GBK 等。
它能识别多字节字符,并将一个汉字视为一个字符,因此更适合处理包含中文的字符串。
示例:
$str = "hello世界"; echo mb_strlen($str, 'UTF-8'); // 输出 7
解释:5个英文字母 + 2个汉字 = 7个字符。注意第二个参数指定编码为 'UTF-8',这是关键,否则可能产生错误结果。
与注意事项基本上就这些。处理多语言内容时,优先选择 mb_ 系列函数,避免因字节与字符混淆引发问题。不复杂但容易忽略。