微软悄悄上线三款自研AI模型，价格不到对手一半

📅 2026 年 4 月 3 日 📖 约 2 分钟 TechCrunch AI商业工程

会议刚结束，助理还没来得及整理录音，会议纪要已经出现在Outlook草稿箱里；设计师发来一段产品描述，五秒后视频初稿就在Teams聊天窗里播放起来；客服系统听到用户语气变化，自动调出安抚话术并合成真人声线回应。

这不是某个AI创业公司的Demo视频。这三件事，现在分别对应微软新发布的MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2——它们不是概念，而是已接入测试平台、明码标价、可直接调用的API服务。

这意味着：企业不用等大模型厂商‘适配’，就能把语音转写嵌进内部审批流，把定制音色接进IVR系统，把文生图能力塞进PowerPoint插件里。

MAI-Transcribe-1支持25种语言，转写速度是Azure现有方案的2.5倍；MAI-Voice-1能在1秒内生成60秒音频，并支持用户上传3分钟语音样本训练专属声线；MAI-Image-2虽叫‘图像模型’，实为视频生成器——它已在MAI Playground上线近一个月，现在正式进入微软统一AI分发平台Foundry。

这意味着：技术落地路径变短了。以前要集成第三方TTS或SaaS视频工具，现在调一个微软API，权限、计费、运维都走同一套体系。

三款模型定价清晰：语音转写0.36美元/小时，声音生成22美元/百万字符，图像生成5美元/百万文本token + 33美元/百万图像token。对比Google和OpenAI同类服务，价格普遍低40%-60%。

这意味着：成本敏感型场景——比如跨国呼叫中心批量转录、教育类App为每节课生成讲解视频——第一次有了经济可行的自建选项。

微软AI CEO Mustafa Suleyman带队的这支‘超级智能团队’，成立仅六个月。它一边高调宣布‘Humanist AI’理念，一边把模型定价表贴在博客最下方。

背后的逻辑是：当大模型从‘能用’进入‘敢用’阶段，决定权不再只在参数规模或推理速度，而在响应延迟是否低于人类等待阈值、API错误率是否低于业务容忍线、账单是否能放进季度IT预算。

别人还在比谁的模型更像人，微软已经在比谁的模型更像水电——不引人注目，但停一秒，整个工作流就卡住。

MAI Playground里，已有开发者把MAI-Voice-1接入Notion模板，让周报自动生成语音摘要；而Teams后台日志显示，部分区域的会议转录服务，流量正悄然从Azure Speech切换至MAI-Transcribe-1。

阅读原文

📚 相关主题商业工程

📬 订阅 AI Pulse