GPT-5.5能自主跑完全程多步骤任务，Token用量更少

📅 2026 年 4 月 24 日 📖 约 17 分钟 OpenAI AI工程商业

OpenAI 发布了 GPT-5.5，这是他们目前最聪明、最直观的模型。你可以交给它一个混乱的多步骤任务，它会自己规划路径、调用工具、检查结果、应对模糊信息，并一路推进到底。

这种能力在代理式编程、计算机操作、知识工作和早期科研中尤为突出——这些领域依赖跨上下文推理和持续行动。早期测试显示，GPT-5.5 更擅长在大型系统中保持上下文、分析模糊故障、用工具验证假设，并将代码变更传播到整个代码库。

OpenAI 内部团队每周都在用 Codex 完成实际工作。通讯团队分析了半年的演讲请求数据并构建 Slack 代理；财务团队审阅了 24,771 份税务表格（共 71,637 页），提前两周完成；市场团队自动化周报，每周节省 5–10 小时。

外部用户也有类似体验。Derya Unutmaz 用 GPT-5.5 Pro 分析包含 62 个样本、近 28,000 个基因的数据集，生成了一份详细研究报告，这项工作原本要花团队几个月。数学家 Bartosz Naskręcki 仅用 11 分钟就从单条提示构建出代数几何应用。

尽管能力更强，GPT-5.5 在真实服务中的每 token 延迟与 GPT-5.4 相当，但完成相同 Codex 任务所用 token 显著减少。按 Artificial Analysis 的 Coding Index，它以竞品前沿编码模型一半的成本提供顶尖智能。

性能指标印证了这一进步：在 Terminal-Bench 2.0 上准确率达 82.7%；在 SWE-Bench Pro 上端到端解决 GitHub 问题的比例达 58.6%；在内部长周期编码评估 Expert-SWE（人类中位完成时间约 20 小时）上超越 GPT-5.4。

一位 NVIDIA 工程师形容失去访问权限“像被截肢”。高级工程师反馈，GPT-5.5 比 GPT-5.4 和 Claude Opus 4.7 更能自主推理，甚至能预判测试和评审需求。

日常办公任务也变得更简单。GPT-5.5 在 Codex 中生成文档、电子表格和演示文稿的能力优于前代。它在 GDPval（44 种职业任务）上得分为 84.9%，在模拟真实电脑操作的 OSWorld-Verified 上达 78.7%，在 Tau2-bench Telecom 上未经提示调优即达 98.0%。

安全方面，GPT-5.5 部署了比 GPT-5.2 更严格的网络风险分类器。但 OpenAI 同时为经验证的防御者提供“Trusted Access for Cyber”通道，在 Codex 中开放限制较少的网络防御专用模型。

目前 GPT-5.5 正向 ChatGPT 和 Codex 的 Plus、Pro、Business 及 Enterprise 用户推出，GPT-5.5 Pro 则限于后三类用户。API 版本“很快”上线。模型与 NVIDIA GB200/GB300 NVL72 系统联合设计、训练并部署，其推理栈本身也由 Codex 优化——后者编写的负载均衡启发式算法将 token 生成速度提升超 20%。

一个内部变体甚至协助发现了一个关于非对角 Ramsey 数的新证明，后经 Lean 验证。你给目标，它跑全程。

📎 阅读原文 · OpenAI

📬 订阅 AI Pulse