PHP调用听书插件时语言切换依赖显式lang参数,而非自动识别;需严格匹配voice与lang,混合文本应拆句处理,语种检测须用正则或专用API,音频合并前须统一采样率与声道。
lang 参数,不是插件自动识别文本多数 PHP 接入的听书服务(如阿里云语音合成 TTS、百度语音合成、腾讯云 TTS)本身不分析你传入的文本语种,而是严格按你指定的 lang 参数发音。比如传 lang=zh,哪怕文本是 “Hello world”,也会用中文音调硬读;传 lang=en,中文文本会按英文拼读规则崩坏输出。
lang 必须显式传,不传或传错值(如 zh-CN 写成 zh_CN)会导致静音、报错或默认语种(通常是中文)zh(普通话)、en(英语)、ja(日语)、ko(韩语)、zh-TW(台湾国语),注意大小写和连字符 —— 百度要求 zh,腾讯接受 zh-CN,阿里云认 zh 和 en-US
lang=zh,英文句用 lang=en,否则合成效果极差voice 和 lang 的组合匹配不同服务商对同一语种支持的音色(voice)不同,且 voice 名称隐含语种约束。例如阿里云的 xiaoyun 只支持 zh,而 aisjennie 是美式英语专属,设成 lang=zh 会直接拒绝。
POST /v1/tts HTTP/1.1
Host: nls-gateway.aliyuncs.com
Content-Type: application/json
{
"appkey": "your_appkey",
"text": "Bonjour le monde",
"voice": "aisfrench", // 必须匹配 lang=fr
"lang": "fr",
"format": "mp3"
}
voice 列表及其支持的 lang 值,不能凭名字猜测(zhiyu 不代表支持粤语)json_encode() 封装参数,避免手动拼 JSON 出现引号或编码错误lang 和 voice 做成配置数组,按文本语种查表映射,而不是 if-else 硬编码PHP 的 mb_detect_encoding() 只能判断编码,intl 扩展的 Locale::lookup() 也不适用于文本语种识别。真要自动选语言,要么调用第三方语种识别 API(如百度 NLP 的 language 接口),要么用轻量正则做大致区分:
$text = "こんにちは、世界";
if (preg_match('/[\x{3040}-\x{309F}\x{30A0}-\x{30FF}]/u', $text)) {
$lang = 'ja';
$voice = 'zhiyin'; // 假设该 voice 支持日语
} elseif (preg_match('/[\x{4E00}-\x{9FFF}]/u', $text)) {
$lang = 'zh';
$voice = 'xiaoyun';
} else {
$lang = 'en';
$voice = 'aisjennie';
}
lang=zh,或转交人工标注get_headers() 或 file_get_contents() 直接调语种识别 API,必须用 cURL 设 Content-Type: application/json 并处理返回的 JSON 错误码不同语种请求返回的音频格式可能不同:中文常是 16kHz 单声道,英文可能是 24kHz 双声道。PHP 用 ffmpeg 合并前,必须先统一参数,否则播放器会跳过或静音。
shell_exec('ffprobe -v quiet -show_entries stream=s
ample_rate,channels -of csv=p=0 input.mp3') 检查每个音频的实际参数ffmpeg -i input.mp3 -ar 16000 -ac 1 -y output.mp3
file_put_contents() 直接拼接 MP3 文件 —— 这只是字节堆叠,无法播放多语言朗读真正难的不是调接口,而是语种判定的边界情况、音色与语言的隐式绑定、以及音频流格式的隐形差异。这些地方一漏,用户听到的就是乱码音或者突然静音。