微软开源VibeVoice-ASR：1小时音频一次性转录，自动标注说话人

📅 2026 年 4 月 29 日 📖 约 5 分钟 GitHub AI开源语音

微软开源了VibeVoice-ASR，它能一次性处理最长60分钟的连续音频，输出结构化转录稿——自动标注谁在什么时候说了什么。用户还可以自定义热词，比如特定名称、技术术语，模型对领域专有内容的识别准确率会更好。它原生支持超过50种语言。

模型权重7B，已在Hugging Face上开源。微调代码也发布了，还直接集成了Hugging Face Transformers库，开发者拿来就能用。

除了ASR，微软还发布了两个语音合成模型。

VibeVoice-TTS能一次性合成最长90分钟的多说话人音频，最多支持4个不同的说话人。这对有声书、播客这类长内容创作者挺有用。它支持英语、中文和其他语言。不过发布后，团队发现有人拿它搞深度伪造，于是2025年9月把TTS代码从仓库撤了。目前没说什么时候或会不会以更安全的方式重新发布。

VibeVoice-Realtime是个轻量级实时TTS模型，首段音频延迟大概300毫秒，支持流式文本输入。0.5B参数版加了实验性说话人：9种语言的多语言声音（包括德语、法语、意大利语等）和11种不同风格的英语语音。

三个模型背后是同一个核心技术：连续语音分词器。VibeVoice用声学和语义两种分词器，以7.5 Hz的超低帧率跑。它采用下一标记扩散框架：大语言模型理解文本上下文和对话流，扩散头生成高保真声学细节。

VibeVoice基于Qwen2.5 1.5B基础模型，可能继承原模型的偏见、错误或遗漏。微软明确说，它只供研究用，不建议未经测试就商用。

目前没有材料提到VibeVoice在嘈杂环境下的识别表现，也没说0.5B的Realtime在手机这类设备上跑不跑得动。微软会不会提供商业许可或云API服务，也是个问号。

VibeVoice-TTS的代码已经撤了，什么时候恢复还没消息。

📬 订阅 AI Pulse