英伟达开源Nemotron 3.5 ASR：免费实时转录40种语言

📅 2026 年 6 月 5 日 📖 约 10 分钟 Hugging Face AI开源工程

英伟达发布了Nemotron 3.5 ASR，一个600M参数的流式多语言语音转文本模型。它支持40种语言-地区，从单个检查点即可实时转录，自带标点和大小写。模型以开放权重形式出现在Hugging Face上，用户无需按次付费或依赖API，就可以检查、微调、部署。

前代Nemotron 3 ASR（仅英文）在独立基准测试中延迟排名第二，语音结束后0.07秒即可得到转录结果。Nemotron 3.5 ASR继承了相同的Cache-Aware FastConformer-RNNT架构，通过缓存编码器内部状态避免重复计算，从而保持低延迟。

流式识别需要在延迟和精度之间权衡。Nemotron 3.5 ASR通过一个att_context_size参数暴露从80ms到1.12s的多个操作点，同一检查点可在推理时选择不同延迟，无需重新训练。用户可以为语音助手选择超低延迟，为会议记录选择高精度。

模型支持40种语言-地区，包括英语（美/英）、西班牙语（美/西）、德语、法语（法/加）、意大利语、日语、韩语、普通话、阿拉伯语、俄语、印地语等。用户可以选择指定输入语言，或让模型自动检测语言。后者在多语言混合场景（如客服电话）中更实用。

Nemotron 3.5 ASR的可微调能力降低了特定语言优化的门槛。英伟达用希腊语和保加利亚语做了实验。第一阶段使用约2000小时混合数据（来自Granary、Common Voice、FLEURS），在80ms块大小流式模式下，希腊语的词错误率从35%降到24%（改善32%），保加利亚语从22%降到15%（改善31%）。随后添加约2000小时议会录音，将训练池扩展到约2300小时，最弱语言进一步改善（如保加利亚语降到20多），但收益不均衡。微调流程只有五步：将训练数据指向tarred音频、从基础检查点微调、在留出集上评估、添加更多数据并重新训练、导出部署。数据集不大时，单个GPU上一个epoch只需几分钟。

目前不清楚微调时是否会弱化训练数据中未涉及的语言能力。模型在自动语言检测模式下的准确率也未公布。非标准口音（如印度英语）的效果有待验证。

微调后的模型与基础模型架构相同，可以直接套用相同的部署路径，推理时仍可通过att_context_size选择延迟/精度点。对于生产环境，英伟达计划本月晚些时候发布NIM版本，支持gRPC流式，覆盖Ampere、Hopper、Blackwell、Lovelace、Turing、Volta和Jetson等硬件。Jetson支持意味着可以在边缘设备本地运行，无需将音频上传云端。

模型许可证为OpenMDW-1.1，运行时需要NeMo 26.06+。英伟达在语音领域把多语言识别能力下沉到单个免费模型，开发者和机构可以自行优化和部署，不再被封闭API的单语言服务限制。

阅读原文

📚 相关主题开源工程

📬 订阅 AI Pulse