Web Speech API 的 SpeechRecognition 是浏览器原生语音识别首选方案,支持 Chrome/Edge(Chromium),需 HTTPS/localhost、用户授权及云端服务;Safari/Firefox 不支持。
JavaScript 实现语音识别主要依靠浏览器原生支持的 Web Speech API,目前最常用、最成熟的是 SpeechRecognition 接口(也叫 Web Speech Recognition),它允许网页实时捕获并转录用户语音为文本。
这是 Web Speech API 中负责语音转文字的核心接口,已稳定支持于 Chrome(桌面和 Android)、Edge(基于 Chromium 版本)等浏览器。Safari 和 Firefox 目前不支持该接口(截至 2025 年)。
使用前需注意:
以下是最小可用代码片段:
const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
recognition.lang = 'zh-CN'; // 设置中文识别
recognition.interimResults = true; // 允许返回中间结果(实时显示)
recognition.maxAlternatives = 1;
recognition.onresult = (event) => {
const transcript = Array.from(event.results)
.map(result => result[0].transcript)
.join('');
console.log('识别结果:', transcript);
};
recognition.onerror = (event) => {
console.error('语音识别出错:', event.error);
};
// 开始监听
recognition.start();
调用 recognition.start() 后,浏览器会请求麦克风权限;成功后自动开始录音与识别。
虽然不属于“识别”,但常与 SpeechRecognition 搭配使用,实现“听—说”闭环。它通过 window.speechSynthesis 提供文本转语音能力:
utterance.rate, pitch, volume)getVoices() 获取系统可用发音人(需等待 voiceschanged 事件)若需兼容 Safari、Firefox 或追求离线/隐私优先,可考虑:
MediaRecorder 录制音频 Blob,上传至自有语音识别服务(如部署 Whisper、FunASR),适合对数据隐私或定制化有要求的场景Web Speech A
PI 的 SpeechRecognition 是当前浏览器中开箱即用、零依赖的首选方案;其他方式则用于补足兼容性、离线需求或业务定制化场景。