Google新模型实时翻译语音并保留你的语调和节奏

📅 2026 年 6 月 10 日 📖 约 5 分钟 Google AI语音技术商业

Google 今天放出了一个叫 Gemini 3.5 Live Translate 的音频模型，核心就一件事：你对着手机说一句话，对方听到的是你的声音，但说的是他的语言。模型自动检测 70 多种语言，生成翻译语音时连说话人的语气也会保留——语调、语速、音高，都跟着一起翻过去。

不像以前的逐轮翻译系统——你讲完，机器静默几秒，再出个机器人声——3.5 Live Translate 是连续生成语音的。模型内部有一个平衡：等更多上下文，翻译质量会更高；不等，实时性更好。它选了中间态——只在说话人后面 lag 几秒，流畅但不尴尬。

这已经不只是演示。Grab 正在测试，司机和乘客之间每月超过 1000 万次语音通话，能用它实时翻译。Google Meet 上月底也开始对企业 Workspace 客户开放私有预览，支持 70 多种语言、超过 2000 种语言组合——不再是以前只能翻成英语的玩法。翻译后的音频全部用 SynthID 打上了水印，防止被拿去造谣。

普通用户怎么用？Google Translate 应用（Android 和 iOS）全球上线，连接耳机效果更好。Android 还有一个叫“聆听模式”的功能——把手机贴到耳朵边上，翻译语音直接从听筒出来，不用耳机。

开发者走 Gemini Live API 或 Google AI Studio。Agora、LiveKit、Pipecat 这些平台已经在拿着 API 搭语音翻译应用了。CJ ENM 和 LiveKit 的反馈是翻译质量高、延迟低。

门槛在哪里？首先是联网——模型靠云端推理，没有离线方案。其次是延迟虽然低但不是零，几秒 lag 对于即兴对话影响不大，但如果是同传级别的实时性要求，还需侧耳。另外模型支持 70 多种语言，但不是所有语言对都有同样好的表现，长尾组合的覆盖面还待观察。

Google 没说自己“重新定义了翻译”。它只是把语音翻译的体验从“机械复读”推到了“像人在说话”这一步——并且让这一步变得能用。

阅读原文

📚 相关主题商业

📬 订阅 AI Pulse