LangSmith Fleet 有两种类型的智能体:✅ 通用对话 ✅ 专业智能体。
@BraceSproul 讲解了我们为什么提供这种选择,以及每种智能体的适用场景。
### 关键发现 在前期工作的基础上,我们引入了一个研究交互式代理编码的框架,对 2025 年 10 月至 2026 年 4 月间约 40 万次 Claude Code 会话进行了隐私保护分析。我们评估了任务构成、人机协作以及成功率。
在典型会话中,人类做出大部分规划决策(做什么),Claude 做出大部分执行决策(怎么做)。一个人带入会话的领域专业知识越多,Claude 每次指令完成的工作就越多。在编码任务上,所有主要职业的成功率——即完成用户设定的目标,并有可验证的证据(如测试通过或代码提交)——平均而言与软件工程师几乎持平。
𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌
分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出
想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求
@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:
→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成
想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力
找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少
我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。
Opus 4.8 的价格是 MiniMax M3 的 15 倍。
GPT-5.5 的价格是 Nemotron 的 10 倍。
这是关于通用人工智能什么时候出现的一个判断。
当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合
我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!
但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。
智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案
GLM-5.2 现已上线 Hugging Face 🔥
对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。
——AI 与人类的未来,是开放的
在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉
想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行
要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。
要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。
符号学习将实现这一目标。
指出优质验证器对LLM智能体至关重要,建议调优自定义验证器
验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。
我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。
如果你感兴趣,我在这里分享了更多相关内容:
如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。
专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护
假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。
现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。
有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来
Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。
这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。
美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。
不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关
和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。
我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。
我们的实现方式如下:
1/ 准确、实时
Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件
Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。
Spotify、Xcode、系统设置、iOS 模拟器,甚至
横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见
有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim
同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。
想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道
这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统
SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。
它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。
The company
优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。
好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。
我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,
搭建、观测和评估智能体的同一平台,就能直接启用规则管控
这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。
大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。
智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……
这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。
大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。
智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……
找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少
我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。
Opus 4.8 的价格是 MiniMax M3 的 15 倍。
GPT-5.5 的价格是 Nemotron 的 10 倍。
同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。
智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案
GLM-5.2 现已上线 Hugging Face 🔥
对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。
——AI 与人类的未来,是开放的
搭建、观测和评估智能体的同一平台,就能直接启用规则管控
这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统
SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。
它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。
The company
有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来
Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。
这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。
美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。
不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关
和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。
我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。
我们的实现方式如下:
1/ 准确、实时
Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件
Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。
Spotify、Xcode、系统设置、iOS 模拟器,甚至
分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出
横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见
有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim
要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。
要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。
符号学习将实现这一目标。
当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合
我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!
但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。
这是关于通用人工智能什么时候出现的一个判断。
想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道
在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉
优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。
好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。
我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,
想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求
@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:
→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成
想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行
想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力
专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护
假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。
现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。
指出优质验证器对LLM智能体至关重要,建议调优自定义验证器
验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。
我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。
如果你感兴趣,我在这里分享了更多相关内容:
如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。
精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。