AI Pulse

微软开源VibeVoice-ASR:1小时音频一次性转录,自动标注说话人

微软开源VibeVoice-ASR:1小时音频一次性转录,自动标注说话人

微软开源了VibeVoice-ASR,它能一次性处理最长60分钟的连续音频,输出结构化转录稿——自动标注谁在什么时候说了什么。用户还可以自定义热词,比如特定名称、技术术语,模型对领域专有内容的识别准确率会更好。它原生支持超过50种语言。

模型权重7B,已在Hugging Face上开源。微调代码也发布了,还直接集成了Hugging Face Transformers库,开发者拿来就能用。

除了ASR,微软还发布了两个语音合成模型。

VibeVoice-TTS能一次性合成最长90分钟的多说话人音频,最多支持4个不同的说话人。这对有声书、播客这类长内容创作者挺有用。它支持英语、中文和其他语言。不过发布后,团队发现有人拿它搞深度伪造,于是2025年9月把TTS代码从仓库撤了。目前没说什么时候或会不会以更安全的方式重新发布。

VibeVoice-Realtime是个轻量级实时TTS模型,首段音频延迟大概300毫秒,支持流式文本输入。0.5B参数版加了实验性说话人:9种语言的多语言声音(包括德语、法语、意大利语等)和11种不同风格的英语语音。

三个模型背后是同一个核心技术:连续语音分词器。VibeVoice用声学和语义两种分词器,以7.5 Hz的超低帧率跑。它采用下一标记扩散框架:大语言模型理解文本上下文和对话流,扩散头生成高保真声学细节。

VibeVoice基于Qwen2.5 1.5B基础模型,可能继承原模型的偏见、错误或遗漏。微软明确说,它只供研究用,不建议未经测试就商用。

目前没有材料提到VibeVoice在嘈杂环境下的识别表现,也没说0.5B的Realtime在手机这类设备上跑不跑得动。微软会不会提供商业许可或云API服务,也是个问号。

VibeVoice-TTS的代码已经撤了,什么时候恢复还没消息。

📎 阅读原文 · GitHub

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部