Karpathy夸Claude Fable 5是全领域顶尖水平
这是一个超级令人兴奋的发布——Claude Fable 5 底层模型和 Mytho 完全相同,但增加了安全防护。
基准测试表现优异,它在所有任务上都拉开差距成为当前最佳,但我还要补充一点:(在我看来)在使用感受上,它也完全配得上大版本升级带来的阶跃进步,幅度和去年11月的 Claude 4.5 属于同一级别,尤其擅长处理高难度问题的长周期解题过程。
你可以给它分配比你以往习惯的更有野心的任务,这个模型能“get 到要点”,然后直接推进工作,我从未像现在这样想要完全不用自己看代码(但生产环境可别这么做!)。
这个模型仍有一些人们会遇到的小问题,而且为了本次发布,安全防护的触发阈值设置得偏低,希望未来可以逐步调整。
随着可工作的软件越来越容易按需生成,我感觉到很多东西都在发生改变。
杰文斯悖论开始生效,我自己对软件的需求大幅增长。你现在什么都能要:解释器、可视化工具、仪表盘、定制化一次性应用(比如完全适配你项目特定需求的全功能 wandb),你能把测试套件扩大10倍,自动优化代码,用定制HTML输出结果来开展大型研究项目,什么都可以!“解放你的思想”(出自《黑客帝国》)。
非常期待看到大家创造出的一切!
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖