AI Pulse

Kyutai推出MoshiRAG:让语音原生模型实时调用文本大模型

语音原生模型(如Moshi)语音自然、响应迅速,但智能水平不及文本大语言模型(LLM)。Kyutai Labs在新论文MoshiRAG中提出一种方法,使Moshi能实时向文本LLM或知识库请求辅助信息。

研究团队对Moshi进行微调,使其在判断需要外部提示时预测一个特殊标记<ret>。触发该标记后,系统提取当前对话文本转录,交由文本LLM执行检索,并将结果返回给Moshi。

Moshi每80毫秒执行一次推理步骤,而检索系统可能无法在此间隔内完成响应。为此,MoshiRAG采用异步检索机制:Moshi在等待检索结果期间继续说话,使用“我可以帮您处理这个”等引导性语句争取时间。

为减少需反馈给Moshi的检索文本量,团队采用Kyutai自研的ARC-Encoder方法压缩检索结果。用户语音转录则由GradiumAI提供的实时自动语音识别(ASR)系统完成。

论文链接:https://t.co/4xqPDKGs4E;技术博客:https://t.co/o4rqGACZxX;开源代码(支持本地部署):https://t.co/SvPDAjO1Ip。MoshiRAG目前为研究原型,团队认为,经强化学习(RL)等后续训练优化后,它有望替代商用语音大模型。

📎 阅读原文 · @kyutai_labs on 𝕏

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部