AI Pulse

小米推出MiMo-V2.5语音全栈方案,覆盖TTS与ASR

小米发布了MiMo-V2.5 Voice——一套覆盖语音合成(TTS)和语音识别(ASR)的全栈语音方案。这意味着,它不再只提供单点能力,而是为AI代理(Agent)时代的多环节语音交互准备了一套可协同工作的基础模块。

MiMo-V2.5-TTS系列强调指令遵循、表达可控与工作流嵌入。这意味着,开发者能用自然语言指令精确控制语调、停顿、情绪甚至角色切换,而不是仅生成一段固定音频。

MiMo-V2.5-ASR被开源,专为复杂真实语音设计:它要处理口音、中英混说、背景噪音、多人重叠说话,以及含大量专业术语的语音内容。这意味着,它的识别目标不是实验室里的标准朗读,而是会议记录、现场访谈、远程协作等真实场景中的‘听不清但必须懂’的任务。

这套方案没有单独强调性能数字或SOTA排名,而是把能力锚定在‘能否进入实际工作流’上——TTS要能被提示词调度,ASR要能在嘈杂中稳定输出结构化文本。

📎 阅读原文 · @XiaomiMiMo on 𝕏

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部