AI Pulse

Google新模型实时翻译语音并保留你的语调和节奏

Google新模型实时翻译语音并保留你的语调和节奏

Google 今天放出了一个叫 Gemini 3.5 Live Translate 的音频模型,核心就一件事:你对着手机说一句话,对方听到的是你的声音,但说的是他的语言。模型自动检测 70 多种语言,生成翻译语音时连说话人的语气也会保留——语调、语速、音高,都跟着一起翻过去。

不像以前的逐轮翻译系统——你讲完,机器静默几秒,再出个机器人声——3.5 Live Translate 是连续生成语音的。模型内部有一个平衡:等更多上下文,翻译质量会更高;不等,实时性更好。它选了中间态——只在说话人后面 lag 几秒,流畅但不尴尬。

这已经不只是演示。Grab 正在测试,司机和乘客之间每月超过 1000 万次语音通话,能用它实时翻译。Google Meet 上月底也开始对企业 Workspace 客户开放私有预览,支持 70 多种语言、超过 2000 种语言组合——不再是以前只能翻成英语的玩法。翻译后的音频全部用 SynthID 打上了水印,防止被拿去造谣。

普通用户怎么用?Google Translate 应用(Android 和 iOS)全球上线,连接耳机效果更好。Android 还有一个叫“聆听模式”的功能——把手机贴到耳朵边上,翻译语音直接从听筒出来,不用耳机。

开发者走 Gemini Live API 或 Google AI Studio。Agora、LiveKit、Pipecat 这些平台已经在拿着 API 搭语音翻译应用了。CJ ENM 和 LiveKit 的反馈是翻译质量高、延迟低。

门槛在哪里?首先是联网——模型靠云端推理,没有离线方案。其次是延迟虽然低但不是零,几秒 lag 对于即兴对话影响不大,但如果是同传级别的实时性要求,还需侧耳。另外模型支持 70 多种语言,但不是所有语言对都有同样好的表现,长尾组合的覆盖面还待观察。

Google 没说自己“重新定义了翻译”。它只是把语音翻译的体验从“机械复读”推到了“像人在说话”这一步——并且让这一步变得能用。

阅读原文
📚 相关主题 商业

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部