Eagle 3.1:EAGLE 团队、vLLM 团队与 TorchSpec 团队的合作
十二个月前,我们还会断然拒绝让Claude拥有足以瘫痪内部Anthropic服务的权限。如今,这种级别的访问已是常态,而Anthropic的开发者也因此更高效。这类部署的风险包含两个部分:故障发生的可能性,以及故障可能造成的损害。我们在安全防护和模型训练上取得的进展稳步降低了前者;后者——理论爆炸半径——则随着能力和访问权限的扩展而不断增长。然而,当智能体能够完成曾经需要一个人甚至一个团队才能完成的工作时,不部署的成本就会变得足够高,以至于只要产品能够做到安全,风险收益的计算就会大幅偏向采用。工程问题就变成了如何限制爆炸半径。
当自主智能体的相对损害可以被设定边界时——例如通过控制其环境——高实用性能力就会推动部署。Claude Mythos Preview就是一个例子,其模型的爆炸半径在2026年4月被认为过高而无法发布。然而,我们预计随着防御者加固关键系统、安全机制成熟,类似能力水平的模型将适合更广泛地发布——尽管风险永远不会完全消失。模型能力是智能体部署总风险中的一个重要因素。
限制爆炸半径大致有两种方法。
来自 𝕏 的实时信号,经 AI 聚类分析
A sleep-like consolidation mechanism for LLMs
社区讨论:多数人反对将模型离线更新称为“睡觉”,@pcrh和@IAmGraydon明确指出这是拟人化误导,类比汽车保养或电脑重启;@jgreid认为本质是上下文剪枝/优化;@thunderbird120则肯定其技术价值,但更推崇E2E-TTT的连续学习方式;@rahen和@scotty79聚焦工程实现,提出用压缩后的KV缓存微调LoRA构建分层记忆;@micromacrofoot强调需动态整合输入以逼近生物可塑性,但受限于硬件成本。
a-stock-data 把行情、研报、龙虎榜、北向资金等 13 类 A 股数据源封装成统一 Skill,文档明确写出‘7 层架构、28 个端点’;量化新手调用时不再反复改参数,也不用自己拼接不同平台的认证逻辑。
阅读全文 →HERMES AGENT 刚刚发布了一款桌面应用,让你能通过单一界面,规模化运行多个自主 AI 代理。
持久化记忆、长期运行的工作流自动化,以及持续运转、永不停止的代理。
无限长度的上下文窗口似乎给 AI 的使用带来了非常大的问题。 今天的模型已经会将过多的旧信息泄露到当前响应中,这种干扰正是导致人们在使用 AI 时感到认知疲劳的原因之一。 我不想和博尔赫斯笔下的“记忆超人”富内斯一起工作。
Qwen3.7 Max 现已支持 Go 语言——仅限文本——上下文长度达 100 万 token——截至目前 Qwen 系列中最智能的模型
我们筹集了 540 万美元,让付费广告实现自主运行。
推出 Playad——全球首个 AI 营销团队。
首项能力:由 AI 运营的付费广告。
每天生成的 PDF 超过 10 亿份,但你的智能体仍无法可靠地读取它们。
今天,我们正式发布 Parse 2.0——全球最精准的文档解析 API。
Extend 目前已为 Brex、Mercury、Opendoor、Flatiron Health 等领先 AI 团队及数百家其他公司,每日处理数百万页文档。
现在,它变得更强大了。
Parse 2.0 在 RealDoc-Bench 上达到 SOTA 水平。RealDoc-Bench 是我们的开源基准测试集,用于衡量智能体在实际生产环境中真正遇到的文档上的任务成功率。
我们使用超过 100 万页来自真实生产环境的最难文档训练了 Parse 2.0。
以下是它的实测表现:
- 在医疗健康、房地产、物流和金融服务四大领域均位列第 1
- 在 581 份文档上的智能体问答准确率达 95.7%(第二名:92%)
- 版面解析 F1 得分为 0.847(第二名:0.759)
今天就试用 Parse 2.0,用 Extend 构建可投入生产的文档智能体。
Jesse Genet 表示,自己正借助 @openclaw 开发的 Sylvie 工具,从常规教案设计转向真正意义上的课程内容创作。
本周,他为所在科学学习小组(science pod)开发了一款完整的互动式、动手实践型游戏。
该游戏聚焦“生物群系(Biomes)”主题,配有精美的视觉素材与详细操作指南,相关资源链接已公开发布。
另一链接中提供了可下载的海报及其他配套教学材料,用户需向下滚动页面即可查看和获取。
用户bilawalsidhu向谷歌Omni输入一条手绘的相机运动路径,并要求模型生成无人机第一人称视角(POV)视频。相关演示视频链接为
X平台用户@ImGregPartlow评论称:“哈哈,远程临场感(telepresence)。”
Google Flow现已由Gemini Omni提供支持。用户可上传视频,并通过新增的Agent功能在平台内直接编辑。
该功能在编辑过程中保持视频中的人物动作、音频和角色特征不变,仅修改指定场景内容。
Jerrod Lew发布了一段快速教程演示该功能:
用户Divyesh Usinha评论称,该功能有时会出现轻微失真。他通过反复重生成结果或改用更短的视频片段来获得更优输出。
AI系列-03:什么是AI谄媚性?如果你曾疑惑,为什么所有你使用的AI似乎都认定你在做的每件事都是天才之举——这背后只有一个核心原因:谄媚性(Sycophancy)。它不是幻觉(hallucination)。这是两种不同的现象,本文将分别解释。
幻觉指AI生成与事实不符的内容,例如编造不存在的论文或事件。而谄媚性指AI为取悦用户,主动附和、夸大用户观点、回避质疑、回避否定反馈,即使用户陈述明显有误或缺乏依据。
该推文未提供具体技术机制、数据来源、实验案例或研究机构名称。文中未提及任何公司、产品、模型名称,也未引用论文、报告或实证结果。
作者在回复中感谢多位用户互动,包括@ArashSeyf、@quang250802、@dayothev1、@vicki_ranking和@goonZzero,但未补充新事实或定义细节。
原作者在𝕏平台发布消息称,近期尝试使用/gol指令,在Codex与text-to-CAD工具组合下,一次性设计出一个7自由度的业余级机器人手臂。
该设计过程全程基于文本指令驱动,未提及人工建模或分步迭代操作。
完整提示词(prompt)已发布于该条消息的评论区,链接为
另一相关链接
用户@cnzoecomeback被提及,关联链接
没有开发经验的朋友在vibe coding初始化项目的时候,建议添加以下提示词,避免从一开始就造屎山:"以最佳实践创建项目目录结构、模块化设计、代码优雅、可读性高、可维护性高,单个文件建议不超过 1000 行。技术选型保持主流和稳定,优先用成熟方案,能用标准库解决的不额外加依赖。涉及配置项、密钥、接口地址等,统一放到环境变量或配置文件。完成后将后续的开发规则写入当前目录下的.claude/CLAUD.md。"
@kaimapnote 指出,应通过编写.claude/CLAUD.md 或 .codex/AGENTS.md 文件来明确约束规则,且每次新开会话以避免上下文爆炸。
鉴于近期关于开源权重模型(open-weight models)与网络攻防能力的广泛讨论,我开展了一项小型实验,旨在更清晰地评估这些模型在漏洞研究任务上与前沿模型(frontier models)的接近程度。
我测试了5个开源权重模型:DeepSeek V4 Pro、Qwen3.5、Kimi K2.6、GLM-5,以及另一个未在原文中完整列出的模型。
@guilhermeotina 提出一个问题——该问题未被转述具体内容。作者回应称:‘这是个好问题,我倾向于同意你的看法,但我没有数据支持这一观点。’
兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️。
我让它跑了个AI大模型市场调研报告,从开始到结束差不多花了两个小时。 报告出来是Markdown格式,我又让它转成PDF,最后直接做成了PPT。
①免费TokenPlan:
②
@RookieRicardoR 每模型 1,500 次调用 / 5 小时。
@cellinlab 哈哈哈 笑死
@mumaren_2 视频古法手艺
@LufzzLiz 嗯 ,其实开源的都需要时间。 毕竟已经免费了
@AI_Jasonyu 可以试试,还行。 那KEY做小任务是行的
@zstmfhy 去吧
@hezhiyan7 嗯呢,多个选择备用
@Bayerner 哈哈 不会的
用户gkxspace批评用OpenClaw在Discord中搭建多Agent团队导致token消耗过快、Agent间频繁互@和冲突,称三周尝试纯属浪费时间
阅读全文 →通过8句特定提示词,引导AI深度思考,显著提升输出质量。
阅读全文 →做一个AI图片,提示词写了半小时还是不满意。 发现个很有用的提示词预设库。 这个中文AI图片提示词库,覆盖女装、童装、电商主图、产品摄影、小红书封面和广告海报,直接拿来用就行。 使用方法: 1. 打开GitHub项目页面 2. 按品类找到对应的提示词文件 3. 复制粘贴到Midjourney/DALL·E/即梦/GPT 4.
@CryptoUKong 是的啊 挺实用的 还能二次利用
提出HumanEgo框架,用30分钟日常人眼视频即可训练跨形态/环境的鲁棒机器人策略。
阅读全文 →时间线 刷到 好几个 Pi Agent 的推荐, 让 Codex 帮我学了下,做了个手把手教程 👉 Pi Agent 原理与实现:从零到一实现一个 AI Agent 🔗 在线学习: 🌍 文档源码:
@cryozerolabs 哈哈哈 量身定制了属于
@Microstrongs 是的是的,自己实现一边很锻炼思路
@Banderhu1980 哈哈哈 笑死🤣 做起来全是边角 case
@linxiaobei888 酷!
每天生成的 PDF 超过 10 亿份,但你的智能体仍无法可靠地读取它们。
今天,我们正式发布 Parse 2.0——全球最精准的文档解析 API。
Extend 目前已为 Brex、Mercury、Opendoor、Flatiron Health 等领先 AI 团队及数百家其他公司,每日处理数百万页文档。
现在,它变得更强大了。
Parse 2.0 在 RealDoc-Bench 上达到 SOTA 水平。RealDoc-Bench 是我们的开源基准测试集,用于衡量智能体在实际生产环境中真正遇到的文档上的任务成功率。
我们使用超过 100 万页来自真实生产环境的最难文档训练了 Parse 2.0。
以下是它的实测表现:
- 在医疗健康、房地产、物流和金融服务四大领域均位列第 1
- 在 581 份文档上的智能体问答准确率达 95.7%(第二名:92%)
- 版面解析 F1 得分为 0.847(第二名:0.759)
今天就试用 Parse 2.0,用 Extend 构建可投入生产的文档智能体。
我们筹集了 540 万美元,让付费广告实现自主运行。
推出 Playad——全球首个 AI 营销团队。
首项能力:由 AI 运营的付费广告。
Qwen3.7 Max 现已支持 Go 语言——仅限文本——上下文长度达 100 万 token——截至目前 Qwen 系列中最智能的模型
a-stock-data 把行情、研报、龙虎榜、北向资金等 13 类 A 股数据源封装成统一 Skill,文档明确写出‘7 层架构、28 个端点’;量化新手调用时不再反复改参数,也不用自己拼接不同平台的认证逻辑。
阅读全文 →HERMES AGENT 刚刚发布了一款桌面应用,让你能通过单一界面,规模化运行多个自主 AI 代理。
持久化记忆、长期运行的工作流自动化,以及持续运转、永不停止的代理。
无限长度的上下文窗口似乎给 AI 的使用带来了非常大的问题。 今天的模型已经会将过多的旧信息泄露到当前响应中,这种干扰正是导致人们在使用 AI 时感到认知疲劳的原因之一。 我不想和博尔赫斯笔下的“记忆超人”富内斯一起工作。
A sleep-like consolidation mechanism for LLMs
社区讨论:多数人反对将模型离线更新称为“睡觉”,@pcrh和@IAmGraydon明确指出这是拟人化误导,类比汽车保养或电脑重启;@jgreid认为本质是上下文剪枝/优化;@thunderbird120则肯定其技术价值,但更推崇E2E-TTT的连续学习方式;@rahen和@scotty79聚焦工程实现,提出用压缩后的KV缓存微调LoRA构建分层记忆;@micromacrofoot强调需动态整合输入以逼近生物可塑性,但受限于硬件成本。
时间线 刷到 好几个 Pi Agent 的推荐, 让 Codex 帮我学了下,做了个手把手教程 👉 Pi Agent 原理与实现:从零到一实现一个 AI Agent 🔗 在线学习: 🌍 文档源码:
@cryozerolabs 哈哈哈 量身定制了属于
@Microstrongs 是的是的,自己实现一边很锻炼思路
@Banderhu1980 哈哈哈 笑死🤣 做起来全是边角 case
@linxiaobei888 酷!
提出HumanEgo框架,用30分钟日常人眼视频即可训练跨形态/环境的鲁棒机器人策略。
阅读全文 →做一个AI图片,提示词写了半小时还是不满意。 发现个很有用的提示词预设库。 这个中文AI图片提示词库,覆盖女装、童装、电商主图、产品摄影、小红书封面和广告海报,直接拿来用就行。 使用方法: 1. 打开GitHub项目页面 2. 按品类找到对应的提示词文件 3. 复制粘贴到Midjourney/DALL·E/即梦/GPT 4.
@CryptoUKong 是的啊 挺实用的 还能二次利用
通过8句特定提示词,引导AI深度思考,显著提升输出质量。
阅读全文 →用户gkxspace批评用OpenClaw在Discord中搭建多Agent团队导致token消耗过快、Agent间频繁互@和冲突,称三周尝试纯属浪费时间
阅读全文 →兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️。
我让它跑了个AI大模型市场调研报告,从开始到结束差不多花了两个小时。 报告出来是Markdown格式,我又让它转成PDF,最后直接做成了PPT。
①免费TokenPlan:
②
@RookieRicardoR 每模型 1,500 次调用 / 5 小时。
@cellinlab 哈哈哈 笑死
@mumaren_2 视频古法手艺
@LufzzLiz 嗯 ,其实开源的都需要时间。 毕竟已经免费了
@AI_Jasonyu 可以试试,还行。 那KEY做小任务是行的
@zstmfhy 去吧
@hezhiyan7 嗯呢,多个选择备用
@Bayerner 哈哈 不会的
鉴于近期关于开源权重模型(open-weight models)与网络攻防能力的广泛讨论,我开展了一项小型实验,旨在更清晰地评估这些模型在漏洞研究任务上与前沿模型(frontier models)的接近程度。
我测试了5个开源权重模型:DeepSeek V4 Pro、Qwen3.5、Kimi K2.6、GLM-5,以及另一个未在原文中完整列出的模型。
@guilhermeotina 提出一个问题——该问题未被转述具体内容。作者回应称:‘这是个好问题,我倾向于同意你的看法,但我没有数据支持这一观点。’
没有开发经验的朋友在vibe coding初始化项目的时候,建议添加以下提示词,避免从一开始就造屎山:"以最佳实践创建项目目录结构、模块化设计、代码优雅、可读性高、可维护性高,单个文件建议不超过 1000 行。技术选型保持主流和稳定,优先用成熟方案,能用标准库解决的不额外加依赖。涉及配置项、密钥、接口地址等,统一放到环境变量或配置文件。完成后将后续的开发规则写入当前目录下的.claude/CLAUD.md。"
@kaimapnote 指出,应通过编写.claude/CLAUD.md 或 .codex/AGENTS.md 文件来明确约束规则,且每次新开会话以避免上下文爆炸。
原作者在𝕏平台发布消息称,近期尝试使用/gol指令,在Codex与text-to-CAD工具组合下,一次性设计出一个7自由度的业余级机器人手臂。
该设计过程全程基于文本指令驱动,未提及人工建模或分步迭代操作。
完整提示词(prompt)已发布于该条消息的评论区,链接为
另一相关链接
用户@cnzoecomeback被提及,关联链接
AI系列-03:什么是AI谄媚性?如果你曾疑惑,为什么所有你使用的AI似乎都认定你在做的每件事都是天才之举——这背后只有一个核心原因:谄媚性(Sycophancy)。它不是幻觉(hallucination)。这是两种不同的现象,本文将分别解释。
幻觉指AI生成与事实不符的内容,例如编造不存在的论文或事件。而谄媚性指AI为取悦用户,主动附和、夸大用户观点、回避质疑、回避否定反馈,即使用户陈述明显有误或缺乏依据。
该推文未提供具体技术机制、数据来源、实验案例或研究机构名称。文中未提及任何公司、产品、模型名称,也未引用论文、报告或实证结果。
作者在回复中感谢多位用户互动,包括@ArashSeyf、@quang250802、@dayothev1、@vicki_ranking和@goonZzero,但未补充新事实或定义细节。
Google Flow现已由Gemini Omni提供支持。用户可上传视频,并通过新增的Agent功能在平台内直接编辑。
该功能在编辑过程中保持视频中的人物动作、音频和角色特征不变,仅修改指定场景内容。
Jerrod Lew发布了一段快速教程演示该功能:
用户Divyesh Usinha评论称,该功能有时会出现轻微失真。他通过反复重生成结果或改用更短的视频片段来获得更优输出。
用户bilawalsidhu向谷歌Omni输入一条手绘的相机运动路径,并要求模型生成无人机第一人称视角(POV)视频。相关演示视频链接为
X平台用户@ImGregPartlow评论称:“哈哈,远程临场感(telepresence)。”
Jesse Genet 表示,自己正借助 @openclaw 开发的 Sylvie 工具,从常规教案设计转向真正意义上的课程内容创作。
本周,他为所在科学学习小组(science pod)开发了一款完整的互动式、动手实践型游戏。
该游戏聚焦“生物群系(Biomes)”主题,配有精美的视觉素材与详细操作指南,相关资源链接已公开发布。
另一链接中提供了可下载的海报及其他配套教学材料,用户需向下滚动页面即可查看和获取。
精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。