微软自己造了语音、图像、文字模型，却把价格标得比OpenAI便宜一半

📅 2026 年 4 月 3 日 📖 约 2 分钟 TechCrunch AI商业工程

你刚开完一场跨时区线上会，想立刻把录音转成中文纪要；你给产品视频配旁白，又不想请配音员；你临时需要一张带公司Logo的宣传图，但设计师排期已满。过去，这些事要么靠外包，要么得调用三家不同API、填三套计费规则。

现在，微软一口气推出三个基础模型：MAI-Transcribe-1 能听懂25种语言的语音，转文字速度是自家Azure Fast服务的2.5倍；MAI-Voice-1 一秒生成60秒定制人声；MAI-Image-2 不是静态图，而是能输出视频的多模态模型。这意味着什么？你不再需要为「听」、「说」、「看」分别采购工具——它们共享同一套底层逻辑和计费界面。

MAI-Transcribe-1 起价0.36美元/小时，相当于你录一小时会议，花不到3块钱；MAI-Voice-1 每百万字符22美元，念完一本《三体》全文才几毛钱；MAI-Image-2 文本输入5美元/百万token，输出图像33美元/百万token——而OpenAI同类服务实际成本常高出一倍以上。这意味着什么？价格不是试探，是切口：它在告诉开发者，别再把AI当奢侈品，先按需用起来。

这三款模型由Mustafa Suleyman领衔的「MAI超级智能团队」开发，该团队成立仅半年。但更关键的是，它们全部部署在Microsoft Foundry（微软自建模型工厂）和MAI Playground（可交互测试平台）上——没有中间商，没有黑盒API，你调用前就能试效果、算成本、看延迟。这意味着什么？微软正在把AI基建从「租服务器」变成「开便利店」：门开着，货标价，拿完就走。

别人在卷参数、卷推理速度、卷多模态对齐，微软却把Transcribe模型的价格钉死在0.36美元/小时——这个数字太具体、太生活化，不像技术指标，倒像超市里一盒牛奶的标价。背后的逻辑是：当AI成本低到可以按「单次会议」「单条短视频」「单页PPT配图」来计量时，决策权就从CTO办公室下沉到了项目经理、市场专员、甚至实习生手里。

接下来三个月，你会在Teams会议记录、PowerPoint插件、甚至Outlook邮件草稿里，突然发现某个按钮变聪明了——但它不会打广告，只会安静地帮你做完那件‘本来得找人干’的事。

📎 阅读原文 · TechCrunch