AI Pulse

GPT-5.5能自主跑完全程多步骤任务,Token用量更少

GPT-5.5能自主跑完全程多步骤任务,Token用量更少

OpenAI 发布了 GPT-5.5,这是他们目前最聪明、最直观的模型。你可以交给它一个混乱的多步骤任务,它会自己规划路径、调用工具、检查结果、应对模糊信息,并一路推进到底。

这种能力在代理式编程、计算机操作、知识工作和早期科研中尤为突出——这些领域依赖跨上下文推理和持续行动。早期测试显示,GPT-5.5 更擅长在大型系统中保持上下文、分析模糊故障、用工具验证假设,并将代码变更传播到整个代码库。

OpenAI 内部团队每周都在用 Codex 完成实际工作。通讯团队分析了半年的演讲请求数据并构建 Slack 代理;财务团队审阅了 24,771 份税务表格(共 71,637 页),提前两周完成;市场团队自动化周报,每周节省 5–10 小时。

外部用户也有类似体验。Derya Unutmaz 用 GPT-5.5 Pro 分析包含 62 个样本、近 28,000 个基因的数据集,生成了一份详细研究报告,这项工作原本要花团队几个月。数学家 Bartosz Naskręcki 仅用 11 分钟就从单条提示构建出代数几何应用。

尽管能力更强,GPT-5.5 在真实服务中的每 token 延迟与 GPT-5.4 相当,但完成相同 Codex 任务所用 token 显著减少。按 Artificial Analysis 的 Coding Index,它以竞品前沿编码模型一半的成本提供顶尖智能。

性能指标印证了这一进步:在 Terminal-Bench 2.0 上准确率达 82.7%;在 SWE-Bench Pro 上端到端解决 GitHub 问题的比例达 58.6%;在内部长周期编码评估 Expert-SWE(人类中位完成时间约 20 小时)上超越 GPT-5.4。

一位 NVIDIA 工程师形容失去访问权限“像被截肢”。高级工程师反馈,GPT-5.5 比 GPT-5.4 和 Claude Opus 4.7 更能自主推理,甚至能预判测试和评审需求。

日常办公任务也变得更简单。GPT-5.5 在 Codex 中生成文档、电子表格和演示文稿的能力优于前代。它在 GDPval(44 种职业任务)上得分为 84.9%,在模拟真实电脑操作的 OSWorld-Verified 上达 78.7%,在 Tau2-bench Telecom 上未经提示调优即达 98.0%。

安全方面,GPT-5.5 部署了比 GPT-5.2 更严格的网络风险分类器。但 OpenAI 同时为经验证的防御者提供“Trusted Access for Cyber”通道,在 Codex 中开放限制较少的网络防御专用模型。

目前 GPT-5.5 正向 ChatGPT 和 Codex 的 Plus、Pro、Business 及 Enterprise 用户推出,GPT-5.5 Pro 则限于后三类用户。API 版本“很快”上线。模型与 NVIDIA GB200/GB300 NVL72 系统联合设计、训练并部署,其推理栈本身也由 Codex 优化——后者编写的负载均衡启发式算法将 token 生成速度提升超 20%。

一个内部变体甚至协助发现了一个关于非对角 Ramsey 数的新证明,后经 Lean 验证。你给目标,它跑全程。

📎 阅读原文 · OpenAI

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部