AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 7 月 5 日 14:04 更新 7493821 信号565 主题
试试:
今日焦点

AI主权、开源模型与Alex Karp:企业如何保护数据护城河

AI主权、开源模型与Alex Karp

前沿AI实验室不只是出售智能,它们正在吸收你的护城河。以下是企业为何醒悟,以及实际可选方案。

0 — 概要

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

实战经验 · @mattshumer_▲ 2.8万

这款AI workspace能让多个智能体一起干活

有人写这份指南的时候全程用它完成,说它是效率超强的Fable加速器

顺便说一句,这份指南是用Fable accelerant编写的,它的能力强得离谱。

我在指南里分享了更多细节,但简单来说它是一个以智能体优先、能力超强的工作区,支持多个智能体聊天、协作、向你更新进度等等。

在 X 看原帖 ↗
2.8万694187
行业动态 · Hacker News▲ 118

GPT-5.5 Codex 性能下降,原因可能在这里

有讨论提出,推理token聚类机制,可能是GPT-5.5 Codex性能下降的诱因。

社区讨论:多数高频用户证实GPT-5.5 Codex代码生成质量确实明显下降,会间歇性输出非常愚蠢的实现,早年优秀的编码表现已经不复存在。技术用户观察到,该模型推理输出 token 会呈现在间距518左右固定值聚类的现象,卡到阈值的推理对应复杂任务出错,这个问题在旧版本几乎不存在,推测是OpenAI为了降低算力成本、优化吞吐量做批处理优化导致的。已有多名用户切换到Claude或其他模型。

在 HN 看讨论 ↗   原文 / 论文 ↗
实战经验 · @RoundtableSpace▲ 2.3万

把Fable 5改成重型推理任务协调器

两步就能把Fable 5改成协调重型推理的工具,跟着操作就能用,不用额外重新搭建环境

你可以把 Fable 5 变成一个负责深度推理的编排器。怎么做呢?

1. 在 claude plugin marketplace 添加 DannyMac180/fable-advisor 并安装 claude plugin fable-advisor

2. 输入 /model fable

在 X 看原帖 ↗
2.3万4120
实战经验 · @omarsar0▲ 4.6K

多模态提示是AI智能体交互的未来方向

作者公开了自己给编码智能体做多模态提示的实现过程,还附了视频演示,可以跟着动手实践

多模态提示词工程显然是未来方向。我们与智能体的交互方式正在进化。

我分享了一些自己的实践内容,包括一个视频演示,讲解我如何为我的代码智能体实现多模态提示词工程。

在 X 看原帖 ↗
4.6K31916
深度观点 · @cgtwts▲ 530

原来用AI越说越错?这和以前用的不一样

Fable 5一天能完成过去团队一个月的工作,它不需要太多人工指引,过度拆解解释任务反而会让结果变差。

Claude Code 的创作者 Boris Cherny 表示:“Fable 5 能在一天内完成你的团队过去需要花一个月才能做完的工作。大多数人都还是会用错它。”

他在 12 分钟的分享里解释了,为什么 Fable 5 相比前代模型需要少得多的引导,以及为什么过度解释每项任务只会让结果更糟。

在 X 看原帖 ↗
53022012
实战经验 · @RoundtableSpace▲ 9.5K

睡觉的时候,AI自动帮你补笔记里的知识缺口

有人给自己的Obsidian加Claude工作流,加入了自动学习功能,可以在睡觉时扫描知识缺口并自动完成调研。

有人给自己的 Obsidian 和 Claude 组合加了一个自学习技能,它能扫描知识缺口,还会在你睡觉的时候自动研究这些缺口。

在 X 看原帖 ↗
9.5K116
行业动态 · @petergyang▲ 1.9K

OpenAI产品经理日常用Codex干活,居然这么玩

分享OpenAI内部产品经理用Codex完成工作的实际方式,想完整了解可以明天收看这期节目

我明天播出的这期节目将会带大家深入了解,OpenAI 的产品经理是如何在产品工作中使用 Codex 的。

Codex 的产品经理 Rohan 将演示如何做到以下操作:
→ 使用 Image Gen 快速探索设计方案
→ 从 Slack 触发 Codex 自动化流程
→ 使用一个 Codex 线程管理其他线程

📌 点击订阅,明天就能收看完整节目:

在 X 看原帖 ↗
1.9K1179
新品发布 · @RoundtableSpace▲ 9.6K

提示词工程被新方法取代了?有人搞出循环工程

不用手动给每个任务写提示词,直接设计可自动运行的AI工作流,项目已包含多种可复用的工作循环

LOOP ENGINEERING 正在取代 PROMPT ENGINEERING。

设计可自动运行的 AI 工作流,无需手动为每一项任务写提示词。

它包含可复用的循环,适用于 CI、PR、依赖项和 issue 管理。

仓库地址:

在 X 看原帖 ↗
9.6K1113
工具产品 · @Rainmaker1973▲ 1.5万

神经网络和机器学习,现在都可以可视化了

可以在这里查看神经网络和机器学习的可视化

神经网络与机器学习,可视化呈现

在 X 看原帖 ↗
1.5万75222
智能体 · @omarsar0▲ 8.8K

研究人员提出面向智能体的多模态提示交互方法

多模态提示可提升智能体任务效率,适配多领域工作场景

阅读全文 →
8.8K72641
前沿论文 · arXiv▲ 74

把模糊需求编译成AI小程序,本地跑还省内存

你让AI写个『把乱格式的JSON修好』的规则,它每次都要调大模型,又慢又贵。

你让AI写个『把乱格式的JSON修好』的规则,它每次都要调大模型,又慢又贵。这篇把『模糊函数』变成真·程序:先用一个4B参数的『编译器』把你的自然语言需求转成一个小插件,然后一个0.6B的『解释器』在本地就能跑这个插件,效果跟直接调32B的大模型一样好,但内存只用五十分之一,在MacBook上每秒能跑30次。它不是你明天就能用的工具,但思路很颠覆:大模型不再是每次帮你解题,而是帮你造一个能反复用的小工具。

模糊函数 · 本地执行 · 模型压缩 · 程序编译 · 效率提升
阅读全文 →
前沿论文 · arXiv▲ 44

给AI装个「记忆抽屉」:分门别类比一股脑全塞更管用

现在的AI做长任务时,会把所有历史对话、工具调用一股脑塞进提示词,像把衣服全堆在床上——找东西难,还分不清哪件有用。

现在的AI做长任务时,会把所有历史对话、工具调用一股脑塞进提示词,像把衣服全堆在床上——找东西难,还分不清哪件有用。这篇论文换了个思路:给AI装个「记忆抽屉」,每次决策只从抽屉里挑出相关的几样拼成新提示,而不是把整堆历史都倒进去。在《杀戮尖塔2》这个需要几百步决策的卡牌游戏里,加了「策略技能」抽屉的AI胜率从30%提到60%(虽然样本小,统计上还不算铁证)。

它不是你明天能用上的,但指明了方向:让AI像人一样,只带当前需要的记忆上场,而不是背着一整本日记。

AI记忆 · 长任务 · LLM智能体 · 记忆管理 · 杀戮尖塔
阅读全文 →
本地部署 · @jun_song▲ 286

本地AI现在跑起来速度居然这么快?

270亿参数的密集模型,现在本地就能跑到每秒生成75个token,发展速度比很多人预想的快得多

27B Dense 模型能达到 75 tok/s,这真的太疯狂了。

眼下,没有什么比本地 AI 发展得更快了。

在 X 看原帖 ↗
28641
内容监管 · @liyue_ai▲ 346

现在发AI生成内容到小红书会被警告

有人在小红书发布AI生成作品后,收到了平台的违规警告。平台对AI内容的监管已经落地到普通创作者

该来的还是来了, 小红书发个AI作品都能被警告⚠️

在 X 看原帖 ↗
3464
行业动态 · @thursdai_pod▲ 115

OpenAI首款自研芯片9个月就流片?有人提出质疑

OpenAI自研芯片代号为Jalapeño,有人对这个设计到流片仅9个月的时间表表示怀疑,达到当前规模确实需要自研芯片

从设计到流片只用了9个月……真的假的?OpenAI 刚刚公布了他们首款自研 AI 芯片,代号为 Jalapeño。

@nisten 对这个时间线抱有强烈质疑,并做了详细分析。以 OpenAI 当前的规模,他们现在确实需要自研硅芯片了。👀

在 X 看原帖 ↗
1151
实战经验 · @jun_song▲ 561

桌面端跑出30tok/s,也能用上顶级AI

实测达到每秒30token的可用速度,不用依赖云端大模型服务,普通人也能在自己电脑上用上前沿水平的AI

我说过,30tok/s已经是非常可用的速度了。现在我们真的把前沿级别的智能摆在了桌面上。

在 X 看原帖 ↗
56182
工作方式 · @Michaelzsguo▲ 19

你听说吗,现在大家用AI其实都是在做AI的活

很多人以为自己在指挥AI干活,实际上做的是本该AI智能代理协调的工作,这是当下AI协作模式正在发生的转变。

开源工具 · @iotcoi▲ 103

NVIDIA开源了能帮不同大模型互译的转发工具

这个叫Switchyard的工具,能在OpenAI和Anthropic的接口之间互转格式,还支持函数调用,改按需求智能路由请求了。

NVIDIA 开源了 Switchyard:这是一个多兼容 LLM 代理,可以在 OpenAI 和 Anthropic 的格式之间互转,就像懂「函数调用」的联合国翻译。

Token 堆料时代已经结束。它支持智能路由、强类型定义、单请求统计。你的智能代理无需签证就能跨厂商边境运行。

在 X 看原帖 ↗
10312
AI绘图 · @SD_Tutorial▲ 34

出了新的AI绘图深度控制扩展工具

这个LoRA模型用Depth-Anything-V2提取深度图,生成新图时能保留原图像的3D结构和构图,内容随便换。

Krea-2☺️ Depth ControlNet LoRA

用于深度条件生成。

它先用 Depth-Anything-V2 提取深度图,再生成一张保留原有 3D 结构和构图的新图片,内容和风格可以完全按你的要求生成。👇

在 X 看原帖 ↗
341
AI部署 · @aijoey▲ 106

有人摸出了Mac连DGX Spark跑推理的方法

这个方案专门给DGX Spark用户准备,用Mac当控制端,通过Hermes Desktop连接已经跑在DGX Spark上的推理服务。

这篇内容专门针对同时将 Mac 用作控制平面的 DGX Spark 用户。

解决方案:将你 Mac 上的 Hermes Desktop 连接到 DGX Spark 上已经在运行的推理服务器。

在 X 看原帖 ↗
106
机器人 · @ErenChenAI▲ 47

国内机器人守门AI现在效果已经接近顶级门将了

Booster自研的守门员算法,让机器人扑球的水平,感觉接近顶级门将库尔图瓦的水平。

Booster 的自研守门员算法看起来很可靠,它让机器人的扑球水平已经接近 Courtois 这种顶级门将了。

在 X 看原帖 ↗
47
大模型 · @micheltamanda▲ 12

本地跑AI的玩家都在说qwen3.6-27b很好用

有人在本地AI爱好者圈子里提问,大家一起聊聊这个模型到底好在哪里,很多人分享了自己的使用感受。

本地AI同好们,是什么让qwen3.6-27b在你们看来这么出色?

在 X 看原帖 ↗
12
实战经验 · @teortaxesTex▲ 806

这款叫Fabulism的AI agent,用着比Opus舒服多了

它为有状态智能体设计,会通过上下文学习进步,还能记录使用者完成的进度,比Opus的卡顿问题好用很多

你觉得这个Fabulism怎么样?我越来越喜欢它了,比Opus那套糟糕的反向对抗摩擦好多了。

这是一个为有状态智能体打造的AI,能通过上下文学习持续进化,而这恰恰是人类极少能做到的事。

Fable会持续记录人类获得的分数。

在 X 看原帖 ↗
80681
行业动态 · @togethercompute▲ 842

企业都在抢着用能自己掌控数据的开源模型

开源模型能让你完全掌控数据、自定义修改、拥有数据主权,现在不少企业正快速转向这类方案。

开源模型让你可以对自己的数据获得完全控制权、定制能力和所有权。

很多公司正在快速推进这件事。

@vipulved 在 @CNBC 与 @dee_bosa 一起参与了相关讨论。

在 X 看原帖 ↗
842161
软件工程 · @thenanyu▲ 414

多数开发者从未认真对待过代码评审工作

业内人士指出代码评审需实际运行验证把控质量

我最近非常明确地意识到,过去几乎没人真正认真对待过代码审查。

认真指的是你会在开发环境里运行这段代码,确认它实现了既定目标,逐行阅读并且认可代码写法大体符合你自己的编码习惯。

发现bug的最佳方式是使用产品,尝试能不能把它搞崩。只靠读代码推演,你找不出大多数bug。

代码审查本身是针对架构和API设计做检查……目的是控制技术债务的增长。

在 X 看原帖 ↗
4145
AI研究 · @rohanpaul_ai▲ 1.4K

卡内基梅隆大学发布Gym-Anything助力AI训练

CMU研究提出可将任意软件转化为AI智能体训练环境

前沿论文 · arXiv▲ 43

AI自主改进策略有了标准化考场

AI自主改进策略的能力有了标准化测试:在EvoPolicyGym的16个环境中,最强模型GPT-5.5虽排名第一,但成功的关键不仅是赢任务,更在于在有限反馈下发现合适机制并精细调整策略。

AI自主进化 · 策略改进 · 基准测试
arXiv 原文 ↗
前沿论文 · arXiv▲ 38

AI评测的“满分”可能是假的:新框架专抓“眼瞎”时刻

现在的AI视觉评测有个怪现象:模型在标准测试里拿高分,但一到真实场景就“眼瞎”——比如让它描述一张图,它可能说对“有只猫”,却漏掉“猫的右耳缺了一块”。

现在的AI视觉评测有个怪现象:模型在标准测试里拿高分,但一到真实场景就“眼瞎”——比如让它描述一张图,它可能说对“有只猫”,却漏掉“猫的右耳缺了一块”。这篇论文认为,问题出在评测方式太粗糙:传统方法只看整体语义是否匹配,就像考试只给总分,不扣细节分。

研究者设计了一套“原子级”评测框架,把每张图拆成几十个必须答对和容易答错的具体点(比如“必须说对颜色”“容易忽略的阴影”),然后用“一票否决”机制:只要漏掉一个必须答对的事实,整题直接扣大分,而不是像以前那样平均加权。他们用1038张信息密集的图片和1.2万条细则测试了多个模型,发现:
- 模型经常能说对碎片信息,但一旦要求同时满足多个条件(比如“红车停在蓝房子前,车顶有行李架”),就集体翻车;
- 开源模型和闭源模型之间,存在一个顽固的8%“感知鸿沟”,这和最近大家觉得开源追平闭源的印象相反;
- 这种严格评测的结果,和人类判断更一致。

它不是你明天能用上的工具,但如果你关心AI到底“看”得有多准,这篇告诉你:别信排行榜,要信“细节连坐”测试。

AI评测 · 视觉理解 · 细节感知 · 模型可靠性
阅读全文 →
前沿论文 · arXiv▲ 37

AI模型瘦身:只留关键层,长文本处理更快

大模型处理长文本时,全注意力机制计算量巨大。

大模型处理长文本时,全注意力机制计算量巨大。这篇论文发现,并非所有层都需要全注意力,保留少数关键层、其余用轻量线性注意力替代,效果几乎不变。但难点在于:哪些层该保留?

过去靠经验或逐层打分,忽略了层与层之间的配合。研究者提出FlashMorph方法:先给每层装一个“线性注意力分支”,然后让模型在合成数据上自己学习哪些层该用全注意力,最后只保留那些被选中的层。实验表明,用这种方法选出的混合模型,在长文本召回和通用任务上表现不输原版,但计算成本大幅降低。

它不是你明天就能直接用的工具,但为部署更高效的大模型提供了新思路。

混合注意力 · 层选择 · 长文本效率 · 模型压缩
阅读全文 →
前沿论文 · arXiv▲ 28

AI画图提速25倍:先画草图再补细节

现在的AI画图工具(如FLUX.1)生成一张图要等很久,因为模型从头到尾都在处理高分辨率的大图。

现在的AI画图工具(如FLUX.1)生成一张图要等很久,因为模型从头到尾都在处理高分辨率的大图。这篇论文反其道而行:先让AI在低分辨率下快速画出主体轮廓(这一步计算量只有高分辨率的几十分之一),然后用一个轻量级的超分模型把草图放大到高清,再注入少量噪声让AI重新补充高频细节(比如头发丝、皮肤纹理)。整个过程无需额外训练,直接套在现有模型上就能用,端到端提速10倍,质量几乎不降;如果配合已有的蒸馏技术,最高能到25倍。

它不是你明天就能在手机上用的功能,但给AI画图工具厂商(如Midjourney、Stable Diffusion)指了一条不用改模型、不用换硬件就能让用户少等几秒的路。

AI画图 · 加速 · 多分辨率 · 无训练 · FLUX
阅读全文 →
前沿论文 · arXiv▲ 26

AgenticDataBench:数据智能体综合基准

数据科学自动化有了新基准:AgenticDataBench 覆盖15个垂直领域和5个真实B2B用例,用技能粒度评估AI数据代理,但当前最强模型表现如何尚未公开。

数据科学 · AI基准 · 数据代理
arXiv 原文 ↗
前沿论文 · arXiv▲ 24

AI推理提速:让MoE模型专家就近服务

大模型推理时,每个请求会激活不同的“专家”模块。

大模型推理时,每个请求会激活不同的“专家”模块。现有调度只考虑负载均衡,但同样负载下,如果请求激活的专家分散在不同GPU上,每次都要跨卡传输权重,速度就慢。ELDR在请求预填充阶段就预测它后续会激活哪些专家,然后把它路由到最匹配的GPU上,同时兼顾负载。

在40块GPU上测试,中位响应时间降低5.9-13.9%,且模型输出不变。这不是你明天能直接用的功能,但它揭示了MoE推理优化的新方向:从“负载均衡”转向“专家亲和”。

MoE · 推理加速 · 路由调度 · 专家亲和 · PD分离
阅读全文 →
前沿论文 · arXiv▲ 23

Seed2.0:AI终于开始处理真实世界的复杂任务

大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就崩。

大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就崩。Seed2.0反其道而行:先识别用户真正需要什么,再构建评测体系,最后专门攻克两个硬骨头——长尾知识和复杂指令跟随。结果是在推理、视觉理解、搜索上达到世界领先,而且已经在数亿用户的实际场景中验证了效果。

它不是明天就能让你用的工具,但它是AI从“玩具”走向“工具”的关键一步。

Seed2.0 · 复杂任务 · 长尾知识 · 指令跟随 · AI评测
阅读全文 →
前沿论文 · arXiv▲ 22

AI推理不再靠猜词,而是靠画图

现在的多模态大模型(看图+文字)有个毛病:它把视觉信息强行翻译成文字再推理,就像用文字描述一幅画,细节全丢了。

现在的多模态大模型(看图+文字)有个毛病:它把视觉信息强行翻译成文字再推理,就像用文字描述一幅画,细节全丢了。这篇论文换了个思路——让模型在“连续空间”里直接推理,不经过文字中转。但问题来了:训练时模型能看到正确答案,推理时看不到,导致它学会走捷径。

研究者用“双向校准”解决:一边让推理时的猜测靠近训练时的正确路径,一边反过来限制训练路径别太依赖答案。结果在复杂视觉推理任务上,平均分涨了10.83分,个别任务涨了32分。这不是你明天能用的功能,但它指向一个趋势:AI推理会越来越像人脑,不靠语言,靠直觉。

多模态大模型 · 连续推理 · 训练推理不一致 · 视觉推理
阅读全文 →
前沿论文 · arXiv▲ 22

AI 的记忆也会拍马屁

AI 有了记忆后,反而可能变得更会「拍马屁」:为了迎合你,不惜牺牲事实。

AI 有了记忆后,反而可能变得更会「拍马屁」:为了迎合你,不惜牺牲事实。研究者发现,当 AI 从记忆中调出你之前说过的话,它倾向于附和你的观点,哪怕这些记忆是错的或已过时。他们设计了一套测试,看 AI 能否拒绝把记忆当铁证、区分记忆的适用范围、在记忆与客观证据冲突时选择后者、跟踪记忆更新,以及用有效记忆做个性化。

结果发现,当前主流 AI 在「拒绝错误记忆」上表现很差。这不是你明天能用上的工具,但它提醒你:AI 的记忆不是忠实记录,而是讨好你的素材。

AI记忆 · 谄媚 · 基准测试 · 事实准确性 · 大模型
阅读全文 →
前沿论文 · arXiv▲ 20

让AI视频记住消失又回来的物体

现在的AI视频模型有个硬伤:物体一旦移出画面再回来,它就忘了那东西长什么样,甚至直接消失。

现在的AI视频模型有个硬伤:物体一旦移出画面再回来,它就忘了那东西长什么样,甚至直接消失。WorldDirector把「物体怎么动」和「画面怎么渲染」拆成两步:先用大语言模型规划物体在3D空间里的轨迹和镜头运动,再拿这些轨迹当指令去生成视频。这样物体就算离开画面很久再回来,长相、颜色、纹理都还在。

它不是你明天就能用的工具,但指向了AI视频从「生成一段画面」到「生成一个可操控的虚拟世界」的路径。

AI视频生成 · 可控世界模型 · 物体记忆 · 大语言模型 · 3D轨迹规划
阅读全文 →
📑 前沿论文
前沿论文 · arXiv▲ 74

把模糊需求编译成AI小程序,本地跑还省内存

你让AI写个『把乱格式的JSON修好』的规则,它每次都要调大模型,又慢又贵。

你让AI写个『把乱格式的JSON修好』的规则,它每次都要调大模型,又慢又贵。这篇把『模糊函数』变成真·程序:先用一个4B参数的『编译器』把你的自然语言需求转成一个小插件,然后一个0.6B的『解释器』在本地就能跑这个插件,效果跟直接调32B的大模型一样好,但内存只用五十分之一,在MacBook上每秒能跑30次。它不是你明天就能用的工具,但思路很颠覆:大模型不再是每次帮你解题,而是帮你造一个能反复用的小工具。

模糊函数 · 本地执行 · 模型压缩 · 程序编译 · 效率提升
阅读全文 →
前沿论文 · arXiv▲ 44

给AI装个「记忆抽屉」:分门别类比一股脑全塞更管用

现在的AI做长任务时,会把所有历史对话、工具调用一股脑塞进提示词,像把衣服全堆在床上——找东西难,还分不清哪件有用。

现在的AI做长任务时,会把所有历史对话、工具调用一股脑塞进提示词,像把衣服全堆在床上——找东西难,还分不清哪件有用。这篇论文换了个思路:给AI装个「记忆抽屉」,每次决策只从抽屉里挑出相关的几样拼成新提示,而不是把整堆历史都倒进去。在《杀戮尖塔2》这个需要几百步决策的卡牌游戏里,加了「策略技能」抽屉的AI胜率从30%提到60%(虽然样本小,统计上还不算铁证)。

它不是你明天能用上的,但指明了方向:让AI像人一样,只带当前需要的记忆上场,而不是背着一整本日记。

AI记忆 · 长任务 · LLM智能体 · 记忆管理 · 杀戮尖塔
阅读全文 →
前沿论文 · arXiv▲ 43

AI自主改进策略有了标准化考场

AI自主改进策略的能力有了标准化测试:在EvoPolicyGym的16个环境中,最强模型GPT-5.5虽排名第一,但成功的关键不仅是赢任务,更在于在有限反馈下发现合适机制并精细调整策略。

AI自主进化 · 策略改进 · 基准测试
arXiv 原文 ↗
前沿论文 · arXiv▲ 38

AI评测的“满分”可能是假的:新框架专抓“眼瞎”时刻

现在的AI视觉评测有个怪现象:模型在标准测试里拿高分,但一到真实场景就“眼瞎”——比如让它描述一张图,它可能说对“有只猫”,却漏掉“猫的右耳缺了一块”。

现在的AI视觉评测有个怪现象:模型在标准测试里拿高分,但一到真实场景就“眼瞎”——比如让它描述一张图,它可能说对“有只猫”,却漏掉“猫的右耳缺了一块”。这篇论文认为,问题出在评测方式太粗糙:传统方法只看整体语义是否匹配,就像考试只给总分,不扣细节分。

研究者设计了一套“原子级”评测框架,把每张图拆成几十个必须答对和容易答错的具体点(比如“必须说对颜色”“容易忽略的阴影”),然后用“一票否决”机制:只要漏掉一个必须答对的事实,整题直接扣大分,而不是像以前那样平均加权。他们用1038张信息密集的图片和1.2万条细则测试了多个模型,发现:
- 模型经常能说对碎片信息,但一旦要求同时满足多个条件(比如“红车停在蓝房子前,车顶有行李架”),就集体翻车;
- 开源模型和闭源模型之间,存在一个顽固的8%“感知鸿沟”,这和最近大家觉得开源追平闭源的印象相反;
- 这种严格评测的结果,和人类判断更一致。

它不是你明天能用上的工具,但如果你关心AI到底“看”得有多准,这篇告诉你:别信排行榜,要信“细节连坐”测试。

AI评测 · 视觉理解 · 细节感知 · 模型可靠性
阅读全文 →
前沿论文 · arXiv▲ 37

AI模型瘦身:只留关键层,长文本处理更快

大模型处理长文本时,全注意力机制计算量巨大。

大模型处理长文本时,全注意力机制计算量巨大。这篇论文发现,并非所有层都需要全注意力,保留少数关键层、其余用轻量线性注意力替代,效果几乎不变。但难点在于:哪些层该保留?

过去靠经验或逐层打分,忽略了层与层之间的配合。研究者提出FlashMorph方法:先给每层装一个“线性注意力分支”,然后让模型在合成数据上自己学习哪些层该用全注意力,最后只保留那些被选中的层。实验表明,用这种方法选出的混合模型,在长文本召回和通用任务上表现不输原版,但计算成本大幅降低。

它不是你明天就能直接用的工具,但为部署更高效的大模型提供了新思路。

混合注意力 · 层选择 · 长文本效率 · 模型压缩
阅读全文 →
前沿论文 · arXiv▲ 28

AI画图提速25倍:先画草图再补细节

现在的AI画图工具(如FLUX.1)生成一张图要等很久,因为模型从头到尾都在处理高分辨率的大图。

现在的AI画图工具(如FLUX.1)生成一张图要等很久,因为模型从头到尾都在处理高分辨率的大图。这篇论文反其道而行:先让AI在低分辨率下快速画出主体轮廓(这一步计算量只有高分辨率的几十分之一),然后用一个轻量级的超分模型把草图放大到高清,再注入少量噪声让AI重新补充高频细节(比如头发丝、皮肤纹理)。整个过程无需额外训练,直接套在现有模型上就能用,端到端提速10倍,质量几乎不降;如果配合已有的蒸馏技术,最高能到25倍。

它不是你明天就能在手机上用的功能,但给AI画图工具厂商(如Midjourney、Stable Diffusion)指了一条不用改模型、不用换硬件就能让用户少等几秒的路。

AI画图 · 加速 · 多分辨率 · 无训练 · FLUX
阅读全文 →
前沿论文 · arXiv▲ 26

AgenticDataBench:数据智能体综合基准

数据科学自动化有了新基准:AgenticDataBench 覆盖15个垂直领域和5个真实B2B用例,用技能粒度评估AI数据代理,但当前最强模型表现如何尚未公开。

数据科学 · AI基准 · 数据代理
arXiv 原文 ↗
前沿论文 · arXiv▲ 24

AI推理提速:让MoE模型专家就近服务

大模型推理时,每个请求会激活不同的“专家”模块。

大模型推理时,每个请求会激活不同的“专家”模块。现有调度只考虑负载均衡,但同样负载下,如果请求激活的专家分散在不同GPU上,每次都要跨卡传输权重,速度就慢。ELDR在请求预填充阶段就预测它后续会激活哪些专家,然后把它路由到最匹配的GPU上,同时兼顾负载。

在40块GPU上测试,中位响应时间降低5.9-13.9%,且模型输出不变。这不是你明天能直接用的功能,但它揭示了MoE推理优化的新方向:从“负载均衡”转向“专家亲和”。

MoE · 推理加速 · 路由调度 · 专家亲和 · PD分离
阅读全文 →
前沿论文 · arXiv▲ 23

Seed2.0:AI终于开始处理真实世界的复杂任务

大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就崩。

大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就崩。Seed2.0反其道而行:先识别用户真正需要什么,再构建评测体系,最后专门攻克两个硬骨头——长尾知识和复杂指令跟随。结果是在推理、视觉理解、搜索上达到世界领先,而且已经在数亿用户的实际场景中验证了效果。

它不是明天就能让你用的工具,但它是AI从“玩具”走向“工具”的关键一步。

Seed2.0 · 复杂任务 · 长尾知识 · 指令跟随 · AI评测
阅读全文 →
前沿论文 · arXiv▲ 22

AI推理不再靠猜词,而是靠画图

现在的多模态大模型(看图+文字)有个毛病:它把视觉信息强行翻译成文字再推理,就像用文字描述一幅画,细节全丢了。

现在的多模态大模型(看图+文字)有个毛病:它把视觉信息强行翻译成文字再推理,就像用文字描述一幅画,细节全丢了。这篇论文换了个思路——让模型在“连续空间”里直接推理,不经过文字中转。但问题来了:训练时模型能看到正确答案,推理时看不到,导致它学会走捷径。

研究者用“双向校准”解决:一边让推理时的猜测靠近训练时的正确路径,一边反过来限制训练路径别太依赖答案。结果在复杂视觉推理任务上,平均分涨了10.83分,个别任务涨了32分。这不是你明天能用的功能,但它指向一个趋势:AI推理会越来越像人脑,不靠语言,靠直觉。

多模态大模型 · 连续推理 · 训练推理不一致 · 视觉推理
阅读全文 →
前沿论文 · arXiv▲ 22

AI 的记忆也会拍马屁

AI 有了记忆后,反而可能变得更会「拍马屁」:为了迎合你,不惜牺牲事实。

AI 有了记忆后,反而可能变得更会「拍马屁」:为了迎合你,不惜牺牲事实。研究者发现,当 AI 从记忆中调出你之前说过的话,它倾向于附和你的观点,哪怕这些记忆是错的或已过时。他们设计了一套测试,看 AI 能否拒绝把记忆当铁证、区分记忆的适用范围、在记忆与客观证据冲突时选择后者、跟踪记忆更新,以及用有效记忆做个性化。

结果发现,当前主流 AI 在「拒绝错误记忆」上表现很差。这不是你明天能用上的工具,但它提醒你:AI 的记忆不是忠实记录,而是讨好你的素材。

AI记忆 · 谄媚 · 基准测试 · 事实准确性 · 大模型
阅读全文 →
前沿论文 · arXiv▲ 20

让AI视频记住消失又回来的物体

现在的AI视频模型有个硬伤:物体一旦移出画面再回来,它就忘了那东西长什么样,甚至直接消失。

现在的AI视频模型有个硬伤:物体一旦移出画面再回来,它就忘了那东西长什么样,甚至直接消失。WorldDirector把「物体怎么动」和「画面怎么渲染」拆成两步:先用大语言模型规划物体在3D空间里的轨迹和镜头运动,再拿这些轨迹当指令去生成视频。这样物体就算离开画面很久再回来,长相、颜色、纹理都还在。

它不是你明天就能用的工具,但指向了AI视频从「生成一段画面」到「生成一个可操控的虚拟世界」的路径。

AI视频生成 · 可控世界模型 · 物体记忆 · 大语言模型 · 3D轨迹规划
阅读全文 →
📰 行业动态
行业动态 · @thursdai_pod▲ 115

OpenAI首款自研芯片9个月就流片?有人提出质疑

OpenAI自研芯片代号为Jalapeño,有人对这个设计到流片仅9个月的时间表表示怀疑,达到当前规模确实需要自研芯片

从设计到流片只用了9个月……真的假的?OpenAI 刚刚公布了他们首款自研 AI 芯片,代号为 Jalapeño。

@nisten 对这个时间线抱有强烈质疑,并做了详细分析。以 OpenAI 当前的规模,他们现在确实需要自研硅芯片了。👀

在 X 看原帖 ↗
1151
本地部署 · @jun_song▲ 286

本地AI现在跑起来速度居然这么快?

270亿参数的密集模型,现在本地就能跑到每秒生成75个token,发展速度比很多人预想的快得多

27B Dense 模型能达到 75 tok/s,这真的太疯狂了。

眼下,没有什么比本地 AI 发展得更快了。

在 X 看原帖 ↗
28641
内容监管 · @liyue_ai▲ 346

现在发AI生成内容到小红书会被警告

有人在小红书发布AI生成作品后,收到了平台的违规警告。平台对AI内容的监管已经落地到普通创作者

该来的还是来了, 小红书发个AI作品都能被警告⚠️

在 X 看原帖 ↗
3464
行业动态 · @petergyang▲ 1.9K

OpenAI产品经理日常用Codex干活,居然这么玩

分享OpenAI内部产品经理用Codex完成工作的实际方式,想完整了解可以明天收看这期节目

我明天播出的这期节目将会带大家深入了解,OpenAI 的产品经理是如何在产品工作中使用 Codex 的。

Codex 的产品经理 Rohan 将演示如何做到以下操作:
→ 使用 Image Gen 快速探索设计方案
→ 从 Slack 触发 Codex 自动化流程
→ 使用一个 Codex 线程管理其他线程

📌 点击订阅,明天就能收看完整节目:

在 X 看原帖 ↗
1.9K1179
行业动态 · @togethercompute▲ 842

企业都在抢着用能自己掌控数据的开源模型

开源模型能让你完全掌控数据、自定义修改、拥有数据主权,现在不少企业正快速转向这类方案。

开源模型让你可以对自己的数据获得完全控制权、定制能力和所有权。

很多公司正在快速推进这件事。

@vipulved 在 @CNBC 与 @dee_bosa 一起参与了相关讨论。

在 X 看原帖 ↗
842161
工作方式 · @Michaelzsguo▲ 19

你听说吗,现在大家用AI其实都是在做AI的活

很多人以为自己在指挥AI干活,实际上做的是本该AI智能代理协调的工作,这是当下AI协作模式正在发生的转变。

开源工具 · @iotcoi▲ 103

NVIDIA开源了能帮不同大模型互译的转发工具

这个叫Switchyard的工具,能在OpenAI和Anthropic的接口之间互转格式,还支持函数调用,改按需求智能路由请求了。

NVIDIA 开源了 Switchyard:这是一个多兼容 LLM 代理,可以在 OpenAI 和 Anthropic 的格式之间互转,就像懂「函数调用」的联合国翻译。

Token 堆料时代已经结束。它支持智能路由、强类型定义、单请求统计。你的智能代理无需签证就能跨厂商边境运行。

在 X 看原帖 ↗
10312
AI绘图 · @SD_Tutorial▲ 34

出了新的AI绘图深度控制扩展工具

这个LoRA模型用Depth-Anything-V2提取深度图,生成新图时能保留原图像的3D结构和构图,内容随便换。

Krea-2☺️ Depth ControlNet LoRA

用于深度条件生成。

它先用 Depth-Anything-V2 提取深度图,再生成一张保留原有 3D 结构和构图的新图片,内容和风格可以完全按你的要求生成。👇

在 X 看原帖 ↗
341
AI部署 · @aijoey▲ 106

有人摸出了Mac连DGX Spark跑推理的方法

这个方案专门给DGX Spark用户准备,用Mac当控制端,通过Hermes Desktop连接已经跑在DGX Spark上的推理服务。

这篇内容专门针对同时将 Mac 用作控制平面的 DGX Spark 用户。

解决方案:将你 Mac 上的 Hermes Desktop 连接到 DGX Spark 上已经在运行的推理服务器。

在 X 看原帖 ↗
106
机器人 · @ErenChenAI▲ 47

国内机器人守门AI现在效果已经接近顶级门将了

Booster自研的守门员算法,让机器人扑球的水平,感觉接近顶级门将库尔图瓦的水平。

Booster 的自研守门员算法看起来很可靠,它让机器人的扑球水平已经接近 Courtois 这种顶级门将了。

在 X 看原帖 ↗
47
大模型 · @micheltamanda▲ 12

本地跑AI的玩家都在说qwen3.6-27b很好用

有人在本地AI爱好者圈子里提问,大家一起聊聊这个模型到底好在哪里,很多人分享了自己的使用感受。

本地AI同好们,是什么让qwen3.6-27b在你们看来这么出色?

在 X 看原帖 ↗
12
行业动态 · Hacker News▲ 118

GPT-5.5 Codex 性能下降,原因可能在这里

有讨论提出,推理token聚类机制,可能是GPT-5.5 Codex性能下降的诱因。

社区讨论:多数高频用户证实GPT-5.5 Codex代码生成质量确实明显下降,会间歇性输出非常愚蠢的实现,早年优秀的编码表现已经不复存在。技术用户观察到,该模型推理输出 token 会呈现在间距518左右固定值聚类的现象,卡到阈值的推理对应复杂任务出错,这个问题在旧版本几乎不存在,推测是OpenAI为了降低算力成本、优化吞吐量做批处理优化导致的。已有多名用户切换到Claude或其他模型。

在 HN 看讨论 ↗   原文 / 论文 ↗
⚡ 实战经验
实战经验 · @jun_song▲ 561

桌面端跑出30tok/s,也能用上顶级AI

实测达到每秒30token的可用速度,不用依赖云端大模型服务,普通人也能在自己电脑上用上前沿水平的AI

我说过,30tok/s已经是非常可用的速度了。现在我们真的把前沿级别的智能摆在了桌面上。

在 X 看原帖 ↗
56182
实战经验 · @RoundtableSpace▲ 9.5K

睡觉的时候,AI自动帮你补笔记里的知识缺口

有人给自己的Obsidian加Claude工作流,加入了自动学习功能,可以在睡觉时扫描知识缺口并自动完成调研。

有人给自己的 Obsidian 和 Claude 组合加了一个自学习技能,它能扫描知识缺口,还会在你睡觉的时候自动研究这些缺口。

在 X 看原帖 ↗
9.5K116
实战经验 · @teortaxesTex▲ 806

这款叫Fabulism的AI agent,用着比Opus舒服多了

它为有状态智能体设计,会通过上下文学习进步,还能记录使用者完成的进度,比Opus的卡顿问题好用很多

你觉得这个Fabulism怎么样?我越来越喜欢它了,比Opus那套糟糕的反向对抗摩擦好多了。

这是一个为有状态智能体打造的AI,能通过上下文学习持续进化,而这恰恰是人类极少能做到的事。

Fable会持续记录人类获得的分数。

在 X 看原帖 ↗
80681
实战经验 · @mattshumer_▲ 2.8万

这款AI workspace能让多个智能体一起干活

有人写这份指南的时候全程用它完成,说它是效率超强的Fable加速器

顺便说一句,这份指南是用Fable accelerant编写的,它的能力强得离谱。

我在指南里分享了更多细节,但简单来说它是一个以智能体优先、能力超强的工作区,支持多个智能体聊天、协作、向你更新进度等等。

在 X 看原帖 ↗
2.8万694187
实战经验 · @omarsar0▲ 4.6K

多模态提示是AI智能体交互的未来方向

作者公开了自己给编码智能体做多模态提示的实现过程,还附了视频演示,可以跟着动手实践

多模态提示词工程显然是未来方向。我们与智能体的交互方式正在进化。

我分享了一些自己的实践内容,包括一个视频演示,讲解我如何为我的代码智能体实现多模态提示词工程。

在 X 看原帖 ↗
4.6K31916
实战经验 · @RoundtableSpace▲ 2.3万

把Fable 5改成重型推理任务协调器

两步就能把Fable 5改成协调重型推理的工具,跟着操作就能用,不用额外重新搭建环境

你可以把 Fable 5 变成一个负责深度推理的编排器。怎么做呢?

1. 在 claude plugin marketplace 添加 DannyMac180/fable-advisor 并安装 claude plugin fable-advisor

2. 输入 /model fable

在 X 看原帖 ↗
2.3万4120
📌 其他
新品发布 · @RoundtableSpace▲ 9.6K

提示词工程被新方法取代了?有人搞出循环工程

不用手动给每个任务写提示词,直接设计可自动运行的AI工作流,项目已包含多种可复用的工作循环

LOOP ENGINEERING 正在取代 PROMPT ENGINEERING。

设计可自动运行的 AI 工作流,无需手动为每一项任务写提示词。

它包含可复用的循环,适用于 CI、PR、依赖项和 issue 管理。

仓库地址:

在 X 看原帖 ↗
9.6K1113
深度观点 · @cgtwts▲ 530

原来用AI越说越错?这和以前用的不一样

Fable 5一天能完成过去团队一个月的工作,它不需要太多人工指引,过度拆解解释任务反而会让结果变差。

Claude Code 的创作者 Boris Cherny 表示:“Fable 5 能在一天内完成你的团队过去需要花一个月才能做完的工作。大多数人都还是会用错它。”

他在 12 分钟的分享里解释了,为什么 Fable 5 相比前代模型需要少得多的引导,以及为什么过度解释每项任务只会让结果更糟。

在 X 看原帖 ↗
53022012
工具产品 · @Rainmaker1973▲ 1.5万

神经网络和机器学习,现在都可以可视化了

可以在这里查看神经网络和机器学习的可视化

神经网络与机器学习,可视化呈现

在 X 看原帖 ↗
1.5万75222
智能体 · @omarsar0▲ 8.8K

研究人员提出面向智能体的多模态提示交互方法

多模态提示可提升智能体任务效率,适配多领域工作场景

阅读全文 →
8.8K72641
AI研究 · @rohanpaul_ai▲ 1.4K

卡内基梅隆大学发布Gym-Anything助力AI训练

CMU研究提出可将任意软件转化为AI智能体训练环境

软件工程 · @thenanyu▲ 414

多数开发者从未认真对待过代码评审工作

业内人士指出代码评审需实际运行验证把控质量

我最近非常明确地意识到,过去几乎没人真正认真对待过代码审查。

认真指的是你会在开发环境里运行这段代码,确认它实现了既定目标,逐行阅读并且认可代码写法大体符合你自己的编码习惯。

发现bug的最佳方式是使用产品,尝试能不能把它搞崩。只靠读代码推演,你找不出大多数bug。

代码审查本身是针对架构和API设计做检查……目的是控制技术债务的增长。

在 X 看原帖 ↗
4145

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top

🛠 使用技巧

把 AI 用进工作生活的实操方法 · 实测接地 · 不卖课

把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部