AI Pulse

微软悄悄上线三款自研AI模型,价格不到对手一半

微软悄悄上线三款自研AI模型,价格不到对手一半

会议刚结束,助理还没来得及整理录音,会议纪要已经出现在Outlook草稿箱里;设计师发来一段产品描述,五秒后视频初稿就在Teams聊天窗里播放起来;客服系统听到用户语气变化,自动调出安抚话术并合成真人声线回应。

这不是某个AI创业公司的Demo视频。这三件事,现在分别对应微软新发布的MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2——它们不是概念,而是已接入测试平台、明码标价、可直接调用的API服务。

这意味着:企业不用等大模型厂商‘适配’,就能把语音转写嵌进内部审批流,把定制音色接进IVR系统,把文生图能力塞进PowerPoint插件里。

MAI-Transcribe-1支持25种语言,转写速度是Azure现有方案的2.5倍;MAI-Voice-1能在1秒内生成60秒音频,并支持用户上传3分钟语音样本训练专属声线;MAI-Image-2虽叫‘图像模型’,实为视频生成器——它已在MAI Playground上线近一个月,现在正式进入微软统一AI分发平台Foundry。

这意味着:技术落地路径变短了。以前要集成第三方TTS或SaaS视频工具,现在调一个微软API,权限、计费、运维都走同一套体系。

三款模型定价清晰:语音转写0.36美元/小时,声音生成22美元/百万字符,图像生成5美元/百万文本token + 33美元/百万图像token。对比Google和OpenAI同类服务,价格普遍低40%-60%。

这意味着:成本敏感型场景——比如跨国呼叫中心批量转录、教育类App为每节课生成讲解视频——第一次有了经济可行的自建选项。

微软AI CEO Mustafa Suleyman带队的这支‘超级智能团队’,成立仅六个月。它一边高调宣布‘Humanist AI’理念,一边把模型定价表贴在博客最下方。

背后的逻辑是:当大模型从‘能用’进入‘敢用’阶段,决定权不再只在参数规模或推理速度,而在响应延迟是否低于人类等待阈值、API错误率是否低于业务容忍线、账单是否能放进季度IT预算。

别人还在比谁的模型更像人,微软已经在比谁的模型更像水电——不引人注目,但停一秒,整个工作流就卡住。

MAI Playground里,已有开发者把MAI-Voice-1接入Notion模板,让周报自动生成语音摘要;而Teams后台日志显示,部分区域的会议转录服务,流量正悄然从Azure Speech切换至MAI-Transcribe-1。

📎 阅读原文 · TechCrunch