微软自己造了语音、图像、文字模型,却把价格标得比OpenAI便宜一半
你刚开完一场跨时区线上会,想立刻把录音转成中文纪要;你给产品视频配旁白,又不想请配音员;你临时需要一张带公司Logo的宣传图,但设计师排期已满。过去,这些事要么靠外包,要么得调用三家不同API、填三套计费规则。
现在,微软一口气推出三个基础模型:MAI-Transcribe-1 能听懂25种语言的语音,转文字速度是自家Azure Fast服务的2.5倍;MAI-Voice-1 一秒生成60秒定制人声;MAI-Image-2 不是静态图,而是能输出视频的多模态模型。这意味着什么?你不再需要为「听」、「说」、「看」分别采购工具——它们共享同一套底层逻辑和计费界面。
MAI-Transcribe-1 起价0.36美元/小时,相当于你录一小时会议,花不到3块钱;MAI-Voice-1 每百万字符22美元,念完一本《三体》全文才几毛钱;MAI-Image-2 文本输入5美元/百万token,输出图像33美元/百万token——而OpenAI同类服务实际成本常高出一倍以上。这意味着什么?价格不是试探,是切口:它在告诉开发者,别再把AI当奢侈品,先按需用起来。
这三款模型由Mustafa Suleyman领衔的「MAI超级智能团队」开发,该团队成立仅半年。但更关键的是,它们全部部署在Microsoft Foundry(微软自建模型工厂)和MAI Playground(可交互测试平台)上——没有中间商,没有黑盒API,你调用前就能试效果、算成本、看延迟。这意味着什么?微软正在把AI基建从「租服务器」变成「开便利店」:门开着,货标价,拿完就走。
别人在卷参数、卷推理速度、卷多模态对齐,微软却把Transcribe模型的价格钉死在0.36美元/小时——这个数字太具体、太生活化,不像技术指标,倒像超市里一盒牛奶的标价。背后的逻辑是:当AI成本低到可以按「单次会议」「单条短视频」「单页PPT配图」来计量时,决策权就从CTO办公室下沉到了项目经理、市场专员、甚至实习生手里。
接下来三个月,你会在Teams会议记录、PowerPoint插件、甚至Outlook邮件草稿里,突然发现某个按钮变聪明了——但它不会打广告,只会安静地帮你做完那件‘本来得找人干’的事。