Kyutai推出MoshiRAG：让语音原生模型实时调用文本大模型

📅 2026 年 5 月 1 日 📖 约 2 分钟 @kyutai_labs on 𝕏 AI语音模型开源

语音原生模型（如Moshi）语音自然、响应迅速，但智能水平不及文本大语言模型（LLM）。Kyutai Labs在新论文MoshiRAG中提出一种方法，使Moshi能实时向文本LLM或知识库请求辅助信息。

研究团队对Moshi进行微调，使其在判断需要外部提示时预测一个特殊标记<ret>。触发该标记后，系统提取当前对话文本转录，交由文本LLM执行检索，并将结果返回给Moshi。

Moshi每80毫秒执行一次推理步骤，而检索系统可能无法在此间隔内完成响应。为此，MoshiRAG采用异步检索机制：Moshi在等待检索结果期间继续说话，使用“我可以帮您处理这个”等引导性语句争取时间。

为减少需反馈给Moshi的检索文本量，团队采用Kyutai自研的ARC-Encoder方法压缩检索结果。用户语音转录则由GradiumAI提供的实时自动语音识别（ASR）系统完成。

论文链接：https://t.co/4xqPDKGs4E；技术博客：https://t.co/o4rqGACZxX；开源代码（支持本地部署）：https://t.co/SvPDAjO1Ip。MoshiRAG目前为研究原型，团队认为，经强化学习（RL）等后续训练优化后，它有望替代商用语音大模型。

📬 订阅 AI Pulse