AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 6 月 17 日 08:35 更新 00 信号0 主题
试试:
今日焦点

代理编码中专业知识回报持续存在

代理式编码与专业知识的持续回报

### 关键发现 在前期工作的基础上,我们引入了一个研究交互式代理编码的框架,对 2025 年 10 月至 2026 年 4 月间约 40 万次 Claude Code 会话进行了隐私保护分析。我们评估了任务构成、人机协作以及成功率。

在典型会话中,人类做出大部分规划决策(做什么),Claude 做出大部分执行决策(怎么做)。一个人带入会话的领域专业知识越多,Claude 每次指令完成的工作就越多。在编码任务上,所有主要职业的成功率——即完成用户设定的目标,并有可验证的证据(如测试通过或代码提交)——平均而言与软件工程师几乎持平。

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

AI工具 · @LangChain▲ 1.6K

新推出的LangSmith Fleet,给用户提供两种代理选择

分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出

LangSmith Fleet 有两种类型的智能体:✅ 通用对话 ✅ 专业智能体。

@BraceSproul 讲解了我们为什么提供这种选择,以及每种智能体的适用场景。

在 X 看原帖 ↗
1.6K41
实战经验 · @togethercompute▲ 1.0K

换开源微调模型后,语音代理成本砍了六倍

想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求

@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:

→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成

在 X 看原帖 ↗
1.0K2131
实战经验 · @LangChain▲ 1.7K

Deep Agents核心能力有两分钟教程讲透了

想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力

Deep Agents深度解析第二部分 | 上下文管理

来自@SydneyRunkle的讲解,时长不到2分钟,介绍Deep Agents工具链中最重要的能力之一

在 X 看原帖 ↗
1.7K4165
前沿研究 · @togethercompute▲ 3.3K

测了大模型做游戏:贵十倍的模型做出来差不多

找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少

我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。

Opus 4.8 的价格是 MiniMax M3 的 15 倍。

GPT-5.5 的价格是 Nemotron 的 10 倍。

在 X 看原帖 ↗
3.3K5276
深度观点 · @fofrAI▲ 1.8K

AI能写喜剧的那天,才会迎来通用人工智能?

这是关于通用人工智能什么时候出现的一个判断。

当AI能够创作喜剧时,我们就拥有了AGI。

在 X 看原帖 ↗
1.8K130
深度观点 · @emollick▲ 4.4K

企业AI现在安稳,可能只是中场休息

当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合

我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!

但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。

在 X 看原帖 ↗
4.4K28712
新品发布 · @victormustar▲ 1.2K

端侧级别的大模型,现在开源放到社区了

智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案

GLM-5.2 现已上线 Hugging Face 🔥

对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。

——AI 与人类的未来,是开放的

在 X 看原帖 ↗
1.2K5263
实战经验 · @omarsar0▲ 3.0K

国产开源大模型GLM-5.2初步表现亮眼

在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉

在开放权重模型的前沿领域不浪费一点时间。从我看到的结果来看,GLM-5.2 表现十分出色。

我非常好奇它在长周期任务上的表现如何。

在 X 看原帖 ↗
3.0K4225
实战经验 · @GoogleAIStudio▲ 1.0万

不用写复杂代码,AI Studio直接做安卓APP

想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行

在 AI Studio 中创建安卓应用并在你的手机上运行,这是 @patloeber 整理的快速分步指南:

在 X 看原帖 ↗
1.0万19195114
深度观点 · @fchollet▲ 1.0万

要让所有人用上开源强AI,得靠符号学习?

要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。

要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。

符号学习将实现这一目标。

在 X 看原帖 ↗
1.0万1615726
大语言模型 · @omarsar0▲ 1.3万

AI从业者探讨大语言模型智能体验证器的重要性

指出优质验证器对LLM智能体至关重要,建议调优自定义验证器

验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。

我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。

如果你感兴趣,我在这里分享了更多相关内容:

如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。

在 X 看原帖 ↗
1.3万1210264
大模型 · @emollick▲ 1.1万

业内观点:开源大模型滞后闭源8-12个月需提前防护

专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护

假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。

现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。

在 X 看原帖 ↗
1.1万1927018
AI能力 · @teodorio▲ 351

这款大模型居然第一次模拟出了稳定的心智

有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来

Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。

这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。

美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。

在 X 看原帖 ↗
3511131
商业 · @hwchase17▲ 507

AI企业现在给编码代理花的钱涨疯了

不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关

和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。

我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。

我们的实现方式如下:
1/ 准确、实时

在 X 看原帖 ↗
50732
AI工具 · @dotey▲ 336

Codex操控电脑的三种方式,整理好适用场景了

Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。

Spotify、Xcode、系统设置、iOS 模拟器,甚至

在 X 看原帖 ↗
336110
AI行业 · @_simonsmith▲ 35

有人给AI行业画了一张双维度发展坐标系

横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见

AI 领域并非一维的。我在此尝试绘制出它的两个维度,我还没有给它们命名,但我认为 X 轴是「自主性」,Y 轴是「智能」。

欢迎告诉我哪里错了,以及我漏掉了什么。

在 X 看原帖 ↗
3521
开源AI · @code_star▲ 112

大家都在猜Mistral年底会开源最大模型

有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim

祈祷@MistralAI能在今年年底开源他们有史以来最大的模型,并且把它命名为Le Chaton Slim。

在 X 看原帖 ↗
1126
前沿研究 · @Hesamation▲ 235

Anthropic报告:专家用Claude反而产出更多

同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。

专家能从 Claude 中获得更多价值~ 根据 Anthropic 的报告。这是因为: > 他们提出的问题 > 他们使用的词汇 > 以及引导 AI 的能力

在 X 看原帖 ↗
235112
深度观点 · @ericosiu▲ 135

现在最大的AI商机,还没多少公司摸透

想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道

当前AI领域最大的机遇,就是将循环应用于企业运营。大多数公司还没有想明白这件事。

以下几个例子可以帮你抢占先机:

在 X 看原帖 ↗
13522
新品发布 · @SERobinsonJr▲ 301

专门做SpaceX AI项目的工程公司成立了

这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统

SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。

它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。

The company

在 X 看原帖 ↗
30115
实战经验 · @llama_index▲ 1.3K

好文档居然能帮AI agent省这么多成本时间

优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。

好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。

我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,

在 X 看原帖 ↗
1.3K41011
新品发布 · @LangChain▲ 821

不用事后加装 AI 智能体治理功能啦

搭建、观测和评估智能体的同一平台,就能直接启用规则管控

智能体治理不应该是事后硬接到智能体系统上的东西。

LangSmith LLM Gateway 允许你在构建、观测和评估智能体的同一平台上执行规则。

在 X 看原帖 ↗
8212134
前沿研究 · @dair_ai▲ 226

大语言模型智能体能探索看不见的环境吗?

这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。

大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。

智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……

在 X 看原帖 ↗
22633
🔬 前沿研究
前沿研究 · @dair_ai▲ 226

大语言模型智能体能探索看不见的环境吗?

这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。

大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。

智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……

在 X 看原帖 ↗
22633
前沿研究 · @togethercompute▲ 3.3K

测了大模型做游戏:贵十倍的模型做出来差不多

找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少

我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。

Opus 4.8 的价格是 MiniMax M3 的 15 倍。

GPT-5.5 的价格是 Nemotron 的 10 倍。

在 X 看原帖 ↗
3.3K5276
前沿研究 · @Hesamation▲ 235

Anthropic报告:专家用Claude反而产出更多

同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。

专家能从 Claude 中获得更多价值~ 根据 Anthropic 的报告。这是因为: > 他们提出的问题 > 他们使用的词汇 > 以及引导 AI 的能力

在 X 看原帖 ↗
235112
🚀 新品发布
新品发布 · @victormustar▲ 1.2K

端侧级别的大模型,现在开源放到社区了

智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案

GLM-5.2 现已上线 Hugging Face 🔥

对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。

——AI 与人类的未来,是开放的

在 X 看原帖 ↗
1.2K5263
新品发布 · @LangChain▲ 821

不用事后加装 AI 智能体治理功能啦

搭建、观测和评估智能体的同一平台,就能直接启用规则管控

智能体治理不应该是事后硬接到智能体系统上的东西。

LangSmith LLM Gateway 允许你在构建、观测和评估智能体的同一平台上执行规则。

在 X 看原帖 ↗
8212134
新品发布 · @SERobinsonJr▲ 301

专门做SpaceX AI项目的工程公司成立了

这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统

SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。

它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。

The company

在 X 看原帖 ↗
30115
📰 行业动态
AI能力 · @teodorio▲ 351

这款大模型居然第一次模拟出了稳定的心智

有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来

Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。

这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。

美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。

在 X 看原帖 ↗
3511131
商业 · @hwchase17▲ 507

AI企业现在给编码代理花的钱涨疯了

不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关

和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。

我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。

我们的实现方式如下:
1/ 准确、实时

在 X 看原帖 ↗
50732
AI工具 · @dotey▲ 336

Codex操控电脑的三种方式,整理好适用场景了

Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。

Spotify、Xcode、系统设置、iOS 模拟器,甚至

在 X 看原帖 ↗
336110
AI工具 · @LangChain▲ 1.6K

新推出的LangSmith Fleet,给用户提供两种代理选择

分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出

LangSmith Fleet 有两种类型的智能体:✅ 通用对话 ✅ 专业智能体。

@BraceSproul 讲解了我们为什么提供这种选择,以及每种智能体的适用场景。

在 X 看原帖 ↗
1.6K41
AI行业 · @_simonsmith▲ 35

有人给AI行业画了一张双维度发展坐标系

横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见

AI 领域并非一维的。我在此尝试绘制出它的两个维度,我还没有给它们命名,但我认为 X 轴是「自主性」,Y 轴是「智能」。

欢迎告诉我哪里错了,以及我漏掉了什么。

在 X 看原帖 ↗
3521
开源AI · @code_star▲ 112

大家都在猜Mistral年底会开源最大模型

有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim

祈祷@MistralAI能在今年年底开源他们有史以来最大的模型,并且把它命名为Le Chaton Slim。

在 X 看原帖 ↗
1126
💡 深度观点
深度观点 · @fchollet▲ 1.0万

要让所有人用上开源强AI,得靠符号学习?

要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。

要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。

符号学习将实现这一目标。

在 X 看原帖 ↗
1.0万1615726
深度观点 · @emollick▲ 4.4K

企业AI现在安稳,可能只是中场休息

当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合

我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!

但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。

在 X 看原帖 ↗
4.4K28712
深度观点 · @fofrAI▲ 1.8K

AI能写喜剧的那天,才会迎来通用人工智能?

这是关于通用人工智能什么时候出现的一个判断。

当AI能够创作喜剧时,我们就拥有了AGI。

在 X 看原帖 ↗
1.8K130
深度观点 · @ericosiu▲ 135

现在最大的AI商机,还没多少公司摸透

想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道

当前AI领域最大的机遇,就是将循环应用于企业运营。大多数公司还没有想明白这件事。

以下几个例子可以帮你抢占先机:

在 X 看原帖 ↗
13522
⚡ 实战经验
实战经验 · @omarsar0▲ 3.0K

国产开源大模型GLM-5.2初步表现亮眼

在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉

在开放权重模型的前沿领域不浪费一点时间。从我看到的结果来看,GLM-5.2 表现十分出色。

我非常好奇它在长周期任务上的表现如何。

在 X 看原帖 ↗
3.0K4225
实战经验 · @llama_index▲ 1.3K

好文档居然能帮AI agent省这么多成本时间

优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。

好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。

我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,

在 X 看原帖 ↗
1.3K41011
实战经验 · @togethercompute▲ 1.0K

换开源微调模型后,语音代理成本砍了六倍

想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求

@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:

→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成

在 X 看原帖 ↗
1.0K2131
实战经验 · @GoogleAIStudio▲ 1.0万

不用写复杂代码,AI Studio直接做安卓APP

想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行

在 AI Studio 中创建安卓应用并在你的手机上运行,这是 @patloeber 整理的快速分步指南:

在 X 看原帖 ↗
1.0万19195114
实战经验 · @LangChain▲ 1.7K

Deep Agents核心能力有两分钟教程讲透了

想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力

Deep Agents深度解析第二部分 | 上下文管理

来自@SydneyRunkle的讲解,时长不到2分钟,介绍Deep Agents工具链中最重要的能力之一

在 X 看原帖 ↗
1.7K4165
📌 其他
大模型 · @emollick▲ 1.1万

业内观点:开源大模型滞后闭源8-12个月需提前防护

专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护

假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。

现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。

在 X 看原帖 ↗
1.1万1927018
大语言模型 · @omarsar0▲ 1.3万

AI从业者探讨大语言模型智能体验证器的重要性

指出优质验证器对LLM智能体至关重要,建议调优自定义验证器

验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。

我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。

如果你感兴趣,我在这里分享了更多相关内容:

如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。

在 X 看原帖 ↗
1.3万1210264

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top
把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部