Thinking Machines 发布交互模型:专注全双工语音交互与规模创新
Thinking Machines 刚刚发布了 Interaction Models。这是他们一年工作和二十亿美元资本后的第一个真正意义上的 AI 模型发布。什么是“交互模型”?首先,它不是前沿模型。Thinking Machines 还没有与 OpenAI、Anthropic 和 Google 竞争。
相反,他们致力于解决与模型更好的实时交互问题。他们所做的部分内容完全不新鲜,部分内容带有轻微的可疑基准测试技巧,而其他部分则代表真正的技术进步。我将尽量全面阐述。
全双工语音模型
如果你使用过 ChatGPT 的音频模式,你会发现你无法像与人交谈那样与它对话。你说话结束到模型接上之间有很大的延迟。模型不会像人一样打断你,也不会像人一样对你打断它做出反应。当然,你也不能通过面部表情给模型视觉反馈。
这是因为 ChatGPT 在任何特定时刻要么在说话,要么在听。当你说话时,它处于“听”模式;当它说话时,它处于“说”模式,不会吸收你的任何信息。它依赖 VAD(语音活动检测)来判断你是否在说话。而另一种方式(也是“交互模型”所做的)是一个全双工系统,模型同时处于听和说模式。
当然,模型并不能真正同时做到这一点。像所有语言模型一样,它要么在执行预填充(吸收提示词令牌),要么在执行解码(生成补全令牌)。但全双工模型可以做到的是以称为“微轮次”的小块在听和说模式之间切换。不是连续听十秒(或等你停止说话),然后说十秒(或将模型输出通过 TTS 输出所需的时间),模型可以听 200 毫秒,然后输出 200 毫秒,再听 200 毫秒,如此反复。当用户说话时,模型会知道输出静音——大多数情况下。但如果它决定打断你或与你同时说话,它也能做到。
到目前为止,这不新奇。Thinking Machines 博客文章已经引用了许多全双工音频系统的例子:Moshi、PersonaPlex、Nemotron-VoiceChat 等等。但至少这勾勒了“交互模型”所处的领域:不是“前沿模型的超级智能”,而是“更好的实时对话交互”[2]。那么,Thinking Machines 做了什么新东西?
委派推理
对于现有的全双工模型,你是与模型本身对话。这是一个相当大的问题,因为全双工模型必须快速:快到能在 200 毫秒的小轮次中运行[3]。如此快速的模型不可能特别智能。
Thinking Machines 的解决方案是引入一个真正的智能模型——任何普通语言模型都可以——在后台,交互模型可以将任务委派给它。在实践中,这很可能通过工具调用实现。交互模型继续聊天,而智能模型在后台工作,智能模型的输出以与音频和视频输入相同的方式直接集成到交互模型的上下文中(我认为这是个真正酷的想法)。
这有点巧妙,但它在实际中效果如何还有待观察。随着更智能模型的结果流入,交互模型是否会做很多“哦等等,我刚说的很蠢,算了”的自我修正?快速交互模型能否智能地在正确时间委派正确任务?总的来说,“从一个快速的弱模型开始,让它移交任务”的方法对 AI 实验室来说一直因多种原因难以做好。
如果我不太宽容,我可能会说,绑定一个强大的推理模型是 Thinking Machines 轻松在竞争性基准测试如 FD-bench V3(他们勉强超过 GPT-realtime-2.0)和 BigBench Audio(引入推理模型将他们的分数从 76% 提升到 96%,仅比 GPT-realtime-2.0 低 0.1%)上获得令人印象深刻成绩的简单方法。如果我宽容一点,我可能会说,一个足够快速用于实时对话的模型必须要有某种方式将困难任务交给更慢、更智能的模型。这两种说法可能都是对的。
规模
值得注意的是,Thinking Machines 还在其全双工模型上绑定了视频输入。这比听起来更令人兴奋,因为面对面的对话非常依赖于能够读取人类表情。理论上,这可能解锁进行真正类似人类对话的能力。
另一个令人兴奋的原因是,这意味着 Thinking Machines 已经能够制造一个相当大的全双工模型(在活跃参数上大约是 Moshi 的两倍,在总参数上是 40 倍)。
事实上,这可能是这里最大的真正技术成就。其他全双工模型已经在做微轮次和打断,如果需要,它们也可以轻松地委派推理,但它们不做视频是因为做不到。能够制造一个与 DeepSeek V4-Flash 一样大的全双工模型相当令人印象深刻。
Thinking Machines 的博客文章大部分篇幅用于解释他们是如何做到这一点的:以更轻量级的方式吸收数据,优化推理库以处理极小的预填充/解码块,以及各种使推理确定性的决策(这是 Thinking Machines 长期以来的执念)。
结论
Thinking Machines 面临很大压力,需要产生真正的 AI 进步。看起来他们不愿意或无法在前沿模型领域竞争(这说得通,我也不想竞争)。鉴于此,我理解为什么他们强调交互模型中令外行人印象深刻的部分——所有全双工交互类的东西——尽管这些部分并非真正的创新。
那么,交互模型是什么?一个放大版、多模态的现有全双工模型(如 Moshi),并绑定了一个真正的模型以增加智能(也许还有更好的基准测试)。规模和视频部分是新奇的、酷的,并且类似整体做法必然是正确的。总的来说,我很高兴看到有资金充足、知名度高的 AI 实验室在解决“构建更智能的前沿模型”之外的问题。我认为在 AI 研究的其他领域还有很多低垂的果实等待采摘。
[1] 人们似乎确实很喜欢 Tinker,这是他们为想要微调模型的研究人员提供的工具,但这并不是人们期待的热门新前沿模型。
[2] 我认为交互模型视频演示中大肆宣传的一些功能(如实时同步翻译)只是全双工音频模型的功能,并非他们系统的特定功能,这至少有点不光明。
[3] 即使是 200 毫秒也有点长。从演示中你可以看到,有时模型完成预填充片段并需要转到解码片段时会有令人不舒服的半秒延迟。
如果你喜欢这篇文章,请考虑订阅关于我新文章的电子邮件更新,或在 Hacker News 上分享。
以下是相关文章的预览,共享标签:
左派支持 AI 的论据 在《许多反 AI 论点是保守论点》中,我论证了左派的反 AI 情绪部分是对 ChatGPT 崛起前后两个不相关事件的反弹:2022 年的加密货币狂热和 2024 年许多大型科技 CEO 对唐纳德·特朗普的支持。如果时机不同,我们本可以在左派中拥有真正的支持 AI 派系。那会是什么样子?继续阅读...