Anthropic最强模型向公众开放，但高危问题会拒绝回答

📅 2026 年 6 月 10 日 📖 约 4 分钟 TechCrunch AI安全商业

Anthropic 昨天向公众开放了 Claude Fable 5，这是它最强模型 Mythos 的公开版本。之前 Mythos 只限少数合作伙伴使用，上周才扩大到15个国家的关键基础设施组织。现在，任何通过 Claude API 或消费型企业计划的人都能调用它。

能力确实强。软件工程、知识工作、视觉——Anthropic 自己这么说。第三方也给出了数据：分析公司 Hex 说 Fable 首次在其核心分析基准上拿到90%；Base44 说它更擅长“一次性完成完整应用”，工具调用很出色；Genspark 的评估里 Fable 击败了所有其他模型，尤其在 UI 设计和游戏编码上。

不过，强是有代价的。定价是 Opus 4.8 的两倍：每百万输入10美元，输出50美元。而且，如果你通过订阅计划用——Pro、Max、Team 和基于座位的企业计划——到6月22日之前是免费的。6月23日之后就被移除，需要消耗积分。Anthropic 说会尽快恢复为标准订阅功能，但没说具体时间。

更值得注意的变化是数据保留。Fable 5 和 Mythos 5 的所有流量都要保留30天，即使你之前有零保留协议。Anthropic 说不会拿这些数据做训练，只用来防御复杂攻击和减少误报。但敏感行业的团队可能需要重新评估自己的合规流程。

高风险区域也做了限制。涉及网络安全、生物、化学、蒸馏这类话题时，模型会直接拒绝回答，并回退到老版本的 Opus 4.8。Anthropic 在发布前做了压力测试：内部赏金计划超过1000小时没发现通用越狱，外部红队也没找到。早期数据显示至少95%的 Fable 会话完全由模型自己的响应运行——说明大多数场景下不需要触发回退。

除了公开版本，Anthropic 还部署了 Mythos 5，只面向已有高级模型访问权限的机构。两个版本的技术底座一样，但安全策略略有不同。

关于未来，Anthropic 在公告里警告，AI 系统可能很快实现递归自我改进——不需要人类干预就能自己变强。这不是公关话术，而是一个实际的产品安全假设。Rakuten 的工程团队已经测试过 Fable 的“最高努力”模式：模型会反思并验证自己的工作，让高度自主运营变得可能。“额外的思考能回本，”他们说。

两倍的价格、30天的数据保留、六月的免费窗口——Anthropic 在把一个强大模型推向市场，但同时设了很多门禁。

阅读原文

📚 相关主题安全商业

📬 订阅 AI Pulse