AMD AI总监Stella Laurenzo团队分析了6852次Claude Code真实编码会话。他们覆盖23万次工具调用,发现3月8日后模型行为突变。
模型中途放弃思考、推卸责任、未经阅读就修改的行为从零升至每天10次。平均读代码次数从6.6次降至2次。重写整文件频率明显上升。
变化与Claude Code 2.1.69版本上线同步。该版本默认启用“思考内容删减”,API返回时自动抹去所有中间推理过程。
AMD已切换到另一家服务商。六个月内,AI编程领域的第一梯队位置,还远没到尘埃落定的时候。
来自 𝕏 的实时信号,经 AI 聚类分析
设计师用Claude Sonnet处理客户反馈,卡在逻辑矛盾处时自动调用更强的Claude Opus——像同事临时拉个专家进群。它现在省下的token,相当于把三小时人工校验压进一杯咖啡时间。
设计师在咖啡馆用笔记本打开Colab链接,点两下就让Gemma 4学懂自己拍的产品图。开源工具把模型训练变成和选滤镜差不多的操作。接下来哪些人会先绕过工程师直接调模型?
有人把Claude当面试官模拟技术答辩,当协作伙伴拆解产品需求,当代码审查搭档逐行追问逻辑——这些场景里它不回话,只提问、质疑、推演。如果你刚为‘AI助手’付费,却还在复制粘贴提示词,那相当于买了电钻只用来拧螺丝。
一位开发者在本地Mac Studio装上GLM 5.1,不用API密钥、不等队列、不传数据到云端,就能完成文档摘要和代码生成;而Anthropic刚宣布的Mythos连试用入口都没放开。开源模型的可用性差距,正在从‘能跑’变成‘敢交活’。
法务助理每天花三小时核对采购合同条款,现在用Box + Claude Managed Agents自动比对历史模板、标出异常项、生成修订建议——背后没写一行调度代码,只靠API连接和预设工作流。知识工作的自动化,正从‘能做’滑向‘默认这么做’。
工程师让Opus负责拆解复杂任务,Sonnet执行具体编码,两个模型像老搭档一样交接——在SWE-bench测试中,这种组合比单用Sonnet便宜11.9%,准确率还略高。如果你正用一个大模型硬扛所有环节,可能多花了钱还拖慢迭代。
PentAGI由多个开源模型代理组成,一个找漏洞、一个构造载荷、一个绕过检测,全程不依赖人工指令;安全团队用它扫描内部系统,发现三个未公开的API越权路径。当攻防演练开始自我繁殖,防御方的响应节奏就得按分钟算。
前端工程师提交PR后,AI代理自动跑E2E测试、检查Bundle大小、生成变更摘要、再决定是否合并——过去半年,这类自动化部署请求涨了10倍。如果你还在手动点‘Deploy’按钮,那你的上线流程已经比CI/CD管道慢半拍。
设计师用RTX 4090本地运行Taobao新模型,输入文案生成10秒短视频,帧率稳定在24fps;而同类闭源工具需排队、按秒计费、输出常带水印。当视频生成从‘云上奢侈品’变成‘本地生产力插件’,剪辑师的素材库就不再依赖平台推荐。
精选文章的中文编辑重写 · 按更新时间排列