阿里通义qwen团队近日发布全新力作——qwen3-livetranslate-flash,这是一款基于大语言模型的高性能多语言实时音视频同声传译模型,具备高精度、低延迟与强鲁棒性的核心优势。
依托于Qwen3-Omni强大的基础模型能力,结合海量多模态数据及百万小时级音视频训练资源,Qwen3-LiveTranslate-Flash 成功实现了对18种主流语言的离线与实时双模式音视频翻译支持。
关键特性
还原原声语气、情感与表达风格,输出音色逼真、富有表现力。性能表现
在公开中英及多语种语音翻译测试集上,Qwen3-LiveTranslate-Flash 的整体准确率显著超越当前主流模型,包括 Gemini-2.5-Flash、GPT-4o-Audio-Preview 和 Voxtral Small-24B 等。
无论是在会议、访谈、教育还是*等多样化应用场景下,Qwen3-LiveTranslate-Flash 均展现出稳定领先的翻译能力,尤其在复杂声学环境和专业领域中表现突出。
面对背景噪音、同音异义词、专有名词识别等挑战性场景,该模型凭借多模态协同理解能力实现更精准翻译。在实时模式下,视觉信息的引入显著弥补了音频断续或模糊带来的上下文缺失问题,优势尤为明显。