HTML5 的 speechSynthesis 可用,但需用户手势触发、监听 voiceschanged 事件获取语音、检查 zh-CN 支持并设置语速等参数;HTML4 不支持该 API,无原生语音合成能力。
speechSynthesis 怎么用?能用,但得注意浏览器支持和触发时机。现代 Chrome、Edge、Safari(部分版本)、Firefox 都支持 speechSynthesis,但必须在用户手势(如点击)后调用 synth.speak(),否则会被静音或拒绝。
window.speechSynthesis 获取实例,它不是构造函数,不能 new
getVoices() 获取可用语音列表,但首次调用常返回空数组——需监听 voiceschanged 事件再取SpeechSynthesisVoice 对象的 lang 属性决定发音语言,中文常用 "zh-CN",但并非所有系统都自带该语音,得实际检查rate(语速,默认 1)、pitch(音调)、volume(音量),避免默认值太生硬const synth = window.speechSynthesis;
synth.onvoiceschanged = () => {
const voices = synth.getVoices();
const cnVoice = voices.find(v => v.lang === 'zh-CN') || voices[0];
const utterance = new SpeechSynthesisUtterance('你好,这是 HTML5 语音播报');
utterance.voice = cnVoice;
utterance.rate = 0.9;
synth.speak(utterance);
};
// 必须由用户点击触发
document.getElementById('speak-btn').addEventListener('click', () => {
if (synth.pending || synth.speaking) synth.cancel();
synth.speak(utterance);
});
不能。speechSynthesis 是 HTML5 新增的 Web API,HTML4 标准里根本不存在这个接口,也没有任何原生机制支持语音合成。
ActiveXO
bject("Sapi.SpVoice") 在现代浏览器中完全不可用 或 播放——但这不是“语音合成”,只是播放录音遇到无声、报错或语音不切换,大概率掉进了这几个坑:
speechSynthesis is not defined:IE 或 Safari 旧版不支持,需加 if ('speechSynthesis' in window) 判断getVoices() 返回空数组又没监听 voiceschanged:Safari 和某些 Android WebView 下必须等事件触发后才能取到语音列表voice.lang 不是 "zh-CN",或系统没安装中文语音包(macOS 默认无中文 TTS,需在「系统设置 → 辅助功能 → 语音」中启用并下载)speak() 也会被忽略,且不会抛异常,只会静默失败没有真正免 JS 的 HTML 原生方案。但可以绕过复杂控制,用最简方式降低出错概率:
标签配合服务端 TTS 接口(如 Azure Cognitive Services、阿里云语音合成),把文字转成 MP3 后播放——兼容性最好,但有网络延迟和费用chrome.tts API,比 web speech 更稳定,权限明确data:text/html 或 iframe 加载旧 HTML4 页面来“激活”语音——Web Speech API 的上下文是全局的,跟文档 doctype 无关voiceschanged 事件或没处理移动端语音缺失问题。