GPT-5.6系列发布:专业能力更强,成本低至五分之一
OpenAI周三推出了GPT-5.6系列,包括旗舰模型Sol、平衡模型Terra和经济模型Luna。这是继GPT-5.5之后的一次代际升级,重点落在更专业的任务能力、更低的成本和更强的安全控制上。
Terra的性能与GPT-5.5相当,但成本降低一半。Luna以最低价格提供“强大能力”——OpenAI没有给具体对比数字,但按定价,Luna的输入价格只有Sol的五分之一。Sol是这一代的性能顶点,在多项专业基准上刷新了纪录。
在Terminal-Bench 2.1上,Sol测试的是终端命令行工作流——需要规划、迭代和工具协调的任务。Sol拿到了新的最高分。在基因学和定量生物学分析基准GeneBench v1上,Sol比GPT-5.5更强,消耗的token也更少。在网络安全测试ExploitBench上,Sol仅用约三分之一的输出token,就与Mythos Preview(推测是竞品或前代安全模型)水平相当。三个模型在ExploitGym(UC Berkeley与OpenAI等合作开发的网络安全环境)上都表现出一种趋势:推理能力越强,网络能力也越强。
不过Sol的优势更集中在帮人发现和修复漏洞,而不是可靠地完成端到端攻击。OpenAI自己的准备框架评估认为,Sol还没达到网络安全关键阈值。
定价方案拉开了档次。按每百万token计算:Sol输入5美元、输出30美元;Terra输入2.50美元、输出15美元;Luna输入1美元、输出6美元。此外GPT-5.6引入了更可预测的提示缓存——支持显式缓存断点和30分钟最小缓存寿命。缓存写入按未缓存输入速率的1.25倍计费,缓存读取继续享受90%折扣。这对频繁使用相同提示的开发者来说,能明显降低API成本。
安全方面,OpenAI称Sol配备了“迄今为止最强大的安全防护栈”,包括模型内训练的保护、生成时的实时检查、账户级信号、差异化访问、持续监控和测试。他们还投入超过70万A100等效GPU小时做自动化红队测试,寻找通用越狱方法。
发布方式有一个特别之处:应美国政府要求,OpenAI先向一小批可信合作伙伴提供有限预览,然后才广泛发布。OpenAI明确表示,不认为这种政府接入流程应该成为长期默认做法。目前未公布预览伙伴名单,也不知道预览会持续多久。
计划是在未来数周内让GPT-5.6 Sol、Terra和Luna全面可用。此外,Sol会在7月在Cerebras硬件上以高达750 token/秒的速度推出,适合需要实时响应的应用。那个速度是否对所有用户可用,OpenAI没有明确说明。
这是OpenAI在模型能力和安全合规之间的一次平衡尝试——更强的专业性能、更清晰的价格分层、更严格的发布流程,但最终决定权还握在美国政府手里。