AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 6 月 30 日 19:05 更新 7273611 信号530 主题
试试:
今日焦点

本地AI知识库:断网也能用,8GB内存就能跑

如果你在意隐私,或者想在没有网络的环境下使用自己的文档,一套完全运行在本地的知识库是可行的方案。它的核心是检索增强生成(RAG)技术——不是把文档喂给模型训练,而是在每次提问时,系统从你的文档中检索相关片段,再交给模型回答。

这套系统由四个组件构成。Ollama负责在电脑上运行大模型,Open WebUI提供聊天界面和知识库管理,向量模型把文档片段转换成数字向量,向量数据库则保存这些向量并在提问时找出相关内容。真正的工作流程是:文档 → 提取文字 → 切成小块 → 生成向量 → 检索相关片段 → 交给模型回答。

Open WebUI的Knowledge功能支持两种模式。

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

工具 · @RoundtableSpace▲ 3.4万

开源AI现在能自动把票据PDF整理成报税数据

小企业会计贴票整理报税表的重复工作,可以直接交给这个开源工具处理,不用再买付费的财务AI工具。

开源 AI 现已可将收据、发票和 PDF 转换为符合税务要求的数据

在 X 看原帖 ↗
3.4万2468
大模型 · @emollick▲ 10.7万

研究者对比分析开源闭源大模型复杂任务表现

基于新测评数据绘制前沿曲线,发现开源模型与闭源存在明显差距

我从@ArtificialAnlys那里拿到了最新的 AA-Briefcase 分数(这个测评本质上是让 AI 完成复杂度很高、耗时数周的咨询项目),然后绘制出了闭源模型和开源模型的性能前沿曲线:

1)意外收获:性能提升非常迅速!
2)开源权重模型和闭源模型之间的差距非常明显。

在 X 看原帖 ↗
10.7万30380155
行业动态 · Hacker News▲ 31

别把错误日志直接粘贴进 Claude Code

这条提醒获得大量讨论,直接粘贴错误日志给 Claude Code 会带来风险,碰到相关操作需要多注意

社区讨论:多数开发者反对将错误直接交给AI代理处理的工作模式,有人指出很难判断AI生成代码的正确性,自己写正确代码比给AI改错误轻松,给AI代理直接接入生产数据库权限会带来严重安全风险,还调侃部分开发者完全依赖AI、自己不理解逻辑的工作方式不靠谱,也有开发者部分认同标题观点,认为自己遇到解决不了的错误才人工介入,直接粘贴错误只是无效拖延,仅少数人认可让AI自助诊断解决错误。

在 HN 看讨论 ↗   原文 / 论文 ↗
界面设计 · @levelsio▲ 6.4万

开发者levelsio指出界面正转向即时生成临时界面

开发者levelsio分享对界面发展趋势的判断

💯 这再次表明,我们正在朝着万物皆可动态生成的临时界面方向发展。

在 X 看原帖 ↗
6.4万11404191
行业动态 · Hacker News▲ 45

DeepSeek V4 调整了峰谷定价,大模型降价了?

大模型API服务商调整定价,使用成本会随之变化,直接影响每次调用API的开销

行业动态 · Hacker News▲ 51

Anthropic CEO称开源AI正在变得越来越危险

这是2023年的旧讨论被重新挖出来,这一观点持续影响开源AI发展的监管方向

行业动态 · Hacker News▲ 563

通义千问3.6 27B被评为本地开发最优选择

做本地大模型开发一直需要平衡性能和硬件需求,这个模型被开发者认为刚好卡在最合适的点上。

社区讨论:多数开发者质疑该评测的门槛过高,128GB内存的MacBook Pro起售价达6699美元,高配版本更是近万美元,远超出普通开发者的硬件配置水平,这笔费用足够购买大量云服务API credits甚至一辆新车。有人指出在该笔记本上本地跑大模型会发烫噪音大,无法日常coding。也有普通配置用户提问,希望能推出适配中低端硬件、小参数量能良好支持工具调用的量化版本。

还有人提到Gemma4 31B体验也很好,只是比较被低估。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 52

能自己搭框架的自主编码大模型发布了

这是一个针对自主编码任务设计的自脚手架大语言模型,可以省掉人工搭建框架的步骤

行业动态 · Hacker News▲ 142

开源自主编码模型,居然能自己迭代优化

做编码相关工作的人,可以多一条免费自主迭代的开源工具路径

社区讨论:多数试用者认为这个通义千问微调的开源编码模型表现不错,能给出有创造性的编码方案,没人要求9-35B参数的模型一键生成完整应用。不少人质疑它只是堆基准分的换皮千问,有人实际测试发现它 bug 查找能力差,无工具对话时幻觉严重,长会话工具调用表现拉胯,甚至连声称的31B稠密模型都找不到权重和基准测试数据,还有开发者提到9B稠密版需要单张80GB显存GPU,普通用户根本用不了。

在 HN 看讨论 ↗   原文 / 论文 ↗
大模型 · @xiaohu▲ 2.4万

马斯克的Grok 4.5现在已经内部测性能了

基于1.5T V9基础模型,补充训练加入了Cursor数据,已经在SpaceX和Tesla测试,早期评估性能接近甚至超过Opus

马斯克说他们的Grok 4.5,基于他们的的 1.5T V9 基础模型 并在补充训练中加入了 Cursor 数据 现已在 SpaceX 和 Tesla 进入早前测试阶段 早期评估显示性能接近 Opus,甚至可能已超过Opus

在 X 看原帖 ↗
2.4万3434
前沿论文 · arXiv▲ 57

机器人看一眼自己动一动,就能适应新环境

现在的机器人视觉-语言-动作模型很笨:换个摄像头角度或换条机械臂,它就得重新训练。

现在的机器人视觉-语言-动作模型很笨:换个摄像头角度或换条机械臂,它就得重新训练。这篇论文让机器人先自己乱动几下,从动作结果中自动推断出“我现在是什么配置”,然后就能直接在新环境下干活,不用更新参数。在仿真和真实机器人上,它在新摄像头角度下的表现远超传统方法。

它不是你明天就能用的产品,但指明了让机器人更灵活的新方向。

机器人 · 世界模型 · 上下文学习 · 系统辨识 · 泛化
阅读全文 →
前沿论文 · arXiv▲ 57

视频编辑实时化:逐帧改,背景不崩

现在的AI视频编辑要么慢到没法实时互动,要么改几帧后背景就乱飘。

现在的AI视频编辑要么慢到没法实时互动,要么改几帧后背景就乱飘。这篇论文搞了个新框架,核心是三步蒸馏:先让一个强大的双向模型学会编辑,再把能力一步步传给一个单向的流式模型,这样就能一帧一帧地改,同时保持背景和未编辑区域稳定。他们还发明了一个AR专用的遮罩缓存,把重复计算省掉,推理速度飙到12.66帧每秒,够实时用了。

这不是你明天就能用的工具,但它指明了方向:实时视频编辑离交互式AR应用又近了一步。

视频编辑 · 实时 · 流式处理 · 蒸馏 · AR
阅读全文 →
行业动态 · Hacker News▲ 32

跨Claude和ChatGPT的统一记忆存储协议发布

不用再给不同AI重复输入个人记忆信息,切换工具不用重复整理数据

商业 · @coreyganim▲ 291

卖AI服务居然这么简单?搞定一个重复问题就行

比起说「我会定制AI系统」,告诉客户你能解决某一个重复出现在他们工作里的问题,更容易接到单子。

一个重复问题 = 一份 AI 服务包年合同。这是理解 AI 服务最简单的方式。

糟糕的推销话术会是:「我开发定制 AI 系统。」好得多的推销是:「我帮你修复这一个重复的工作流,并且持续维护它正常运行。」

举几个例子:
1. 兽医诊所预约提醒
问题:漏约和疫苗逾期。
搭建内容:
- 提醒工作流
- 改期跟进
- 逾期患者名单
- 员工审核过的消息模板

2. 税务申报文件催收
问题:客户只发一半文件,团队需要手动跟进。
搭建内容:
- 缺件清单
- 提醒草稿
- 状态面板
- 升级跟进名单

3. 家庭保洁报价信息收集
问题:潜在客户询价时信息不全。
搭建内容:
- 信息收集提问
- 报价准备摘要
- 跟进工作流

4. 招聘简历初筛分类
问题:招聘专员浪费时间筛选不合格候选人。
搭建内容:
- 简历分类器
- 候选人摘要
- 补全信息请求
- 面试提醒

5. 播客片段审核
问题:片段、标题和发布步骤散乱丢失。
搭建内容:
- 片段审核工作流
- 标题草稿助手
- 发布质量检查清单

一次性搭建费让工作流上线,月度服务费负责持续更新、监控和优化。

枯燥重复的工作里藏着收益。

在 X 看原帖 ↗
29121
开源 · @Techmeme▲ 685

美团开源了1.6万亿参数的LongCat-2.0大模型

这个模型是用5万颗国产芯片组成的集群训练出来的,没有放出更多细节。

美团开源了 LongCat-2.0,这是一个参数规模 1.6T 的模型。美团称该模型是在由 5 万颗国产处理器组成的集群上训练完成的,但没有披露更多细节(路透社)。

(访问 Techmeme dot com 获取链接和完整上下文!)

在 X 看原帖 ↗
6853
游戏 · @Techmeme▲ 1.0K

AI帮写代码后,半年里新发手游数量翻了一倍

到今年五月为止的半年里,iOS平台新发手游数量同比涨了118%,Android涨了73%。

AI 和氛围编程推动游戏发布量激增;ATTN Economy 数据显示,截至 5 月的六个月内共有 18.1 万款手游上线,iOS 平台同比增长 118%,Android 平台同比增长 73%(@orlandowords / 英国金融时报)

(访问 Techmeme dot com 获取链接和完整上下文!)

在 X 看原帖 ↗
1.0K1
政策 · @opinion▲ 972

两党都同意的AI投资计划,被骂成了坏主意

连立场相反的政客都达成一致的政府AI投资基金,有分析师说这根本不是个好方案。

当JD Vance和Bernie Sanders都对某件事达成共识时,这件事值得我们关注。

但@allisonschrager 认为,由政府设立基金投资AI公司是个糟糕透顶的想法。

在 X 看原帖 ↗
9721
研究 · @stochasticchasm▲ 444

原来InstructGPT训练时用了这么多模型

训练1750亿参数的GPT-3做人类指令对齐时,用了60亿参数的奖励模型来做PPO强化学习。

我今天才知道,InstructGPT 在对完整 175B 的 GPT-3 做 PPO 时,用的是 6B 的奖励模型和价值函数。

在 X 看原帖 ↗
4441152
研究 · @rosinality▲ 314

现有学习率缩放规律可能算错最优值了

因为名义学习率和实际有效学习率之间存在缺口,原来的规律会低估真正合适的学习率。

由于学习率与有效学习率之间存在差距,学习率缩放定律可能会低估最优学习率。

在 X 看原帖 ↗
31444
新品发布 · @AdinaYakup▲ 652

美团放出LongCat-2.0,不用GPU训练大模型

这次训练部署都用AI ASIC超算完成,参数规模达到1.6T/48B MoE,权重很快会公布

美团放出了 LongCat-2.0🐱 的预告,权重即将发布 ✨

1.6T/48B MoE,是在 AI ASIC 超级计算集群而非 GPU 上训练和部署的 👀👀👀

在 X 看原帖 ↗
6528
深度观点 · @icanvardar▲ 224

找工作不需要LinkedIn?个人网站更管用

LinkedIn现在已经变成平庸简历的展示场,放了项目和链接的个人网站,比精致优化的平台Profile更能说明能力。

你不需要 LinkedIn,大多数人没有它反而更好。

LinkedIn 早就变成了平庸之人的高光宣传片。

一个放着你的项目和链接的简单个人网站,比任何精心打磨的个人资料都更能说明你是怎样的人。

在 X 看原帖 ↗
22481
行业动态 · @fofrAI▲ 2.3K

Google DeepMind搬去伦敦新办公室啦

这是Google DeepMind伦敦新办公室启用的第一天

在 Google DeepMind 伦敦新办公室的第一天 🎉

在 X 看原帖 ↗
2.3K361
深度观点 · @RhysSullivan▲ 1.0K

用AI投了1150份简历,只收到1个回复

大批量海投简历,即使借助AI,也很难得到用人单位的回应,不妨换个思路找工作

> 用 AI 投递了 1150 份求职申请
>
> 只收到了一封回复
>
> 震惊。png

你觉得还能有什么别的结果?

在 X 看原帖 ↗
1.0K152
新品发布 · @iScienceLuvr▲ 1.1K

正在搭全自动智能研究新平台,找反馈和伙伴

想尝试参与新AI研究工具搭建,或是给项目提建议,现在可以直接对接项目团队

我们正在搭建一个名为 Labless 的全新自动研究/智能体研究平台……

目前正在征集反馈,也在寻找潜在合作伙伴,感兴趣请联系我们!

在 X 看原帖 ↗
1.1K1101
深度观点 · @zephyr_z9▲ 7.7K

中国AI基础设施压力降了,新项目要爆火

The Whale 已经降低了中国AI基础设施的算力压力,DSpark 接下来会迎来极高的使用率。

DSpark 将会获得疯狂的 adoption。The Whale 降低了中国 AI 基础设施的计算压力。

在 X 看原帖 ↗
7.7K236
前沿研究 · @teortaxesTex▲ 7.0K

这项工程优化把延迟降到几乎可以忽略

DSpark的TPOT延迟仅2.9-5.2ms,DSpark引入的延迟基本可以忽略,内置神经网络层运行极快,体积小却展现了出色的工程能力

另一个惊人的数据点是 DSpark 的 TPOT,仅为 2.9-5.2ms,这表明 DSpark 内置的神经网络层运行速度极快。

DSpark 带来的延迟基本可以忽略不计。DSpark 体量很小,却是非常出色的工程成果。

在 X 看原帖 ↗
7.0K2276
行业动态 · @TechCrunch▲ 8.8K

加密交易所OKX希望AI智能体互相雇佣付费

这是加密交易所OKX提出的AI发展方向

加密货币交易所 OKX 希望 AI 代理能够互相雇佣和支付报酬

在 X 看原帖 ↗
8.8K28
新品发布 · @realBigBrainAI▲ 221

转出来的AI!每生成一个字都得手摇

SqueezeLabs做了CrankGPT,这是手摇式AI,生成每个token都需要亲手摇动,能让你实实在在感受到生成过程

SqueezeLabs 打造了 CrankGPT——这是一款手摇发电 AI,能让你亲身感受到它生成的每一个 token。

来源:SqueezeLabs

在 X 看原帖 ↗
221551
行业动态 · @rohanpaul_ai▲ 1.8K

大公司开始用国产开源轻量模型代替顶级模型

Coinbase正在测试按任务难度分流模型,顶级模型只留做规划,日常执行用国产轻量模型足够,能省AI开支

Coinbase 首席执行官 Brian Armstrong 表示,Coinbase 正在通过其 LLM 网关试验默认使用中国开放权重模型,比如 GLM 5.2 和 Kimi 2.7,同时会根据难度路由提示词。

他明确指出,规划任务可能需要前沿模型,但执行任务时用前沿模型可能就是“大材小用”。

--- businessinsider.com/coinbase-ceo-brian-armstrong-low-ai-spend-maintain-token-usage-2026-6

在 X 看原帖 ↗
1.8K291
前沿研究 · @rosinality▲ 781

新蒸馏方法OPD可合并多个教师模型

该研究将OPD设为新基准,验证了token级KL蒸馏效果足够好,可作为后续相关研究的基础起点。

OPD 可用于组合多个教师模型。它现在已经是一个基准方法。

一个需要讨论的细节是,token 级 KL 蒸馏和 top-K/全词汇表蒸馏哪个效果更好。(研究者发现 token 级 KL 的效果已经足够好。)

在 X 看原帖 ↗
78131711
大模型 · @basedjensen▲ 40

国产外卖平台训出1.6T大模型,接近顶级水平

模型用35Ttoken训练,完全跑在国产ASIC芯片上。这给做模型训练的团队提供了国产化落地的参考

“中国DoorDash”发布了一个在国产ASIC上训练、用了35T token训练的1.6T参数模型,性能接近前沿水平。这是Darios和saftiest / yudoskov的噩梦。

在 X 看原帖 ↗
40
工具 · @tmaiaroto▲ 5

AI代理编辑工具更新,稳定性和灵活性大幅提升

开发者迭代了一个不大但关键的控制功能,现在工具本身变得更复杂也更不容易出错。

又搞定了一个功能……虽然是小功能,但属于重要的控制项。我们对这个代理的编辑工具做了大幅改进。它现在变得极其精密、容错性极强。

在 X 看原帖 ↗
5
深度观点 · @peterrhague▲ 407

科技博主骂太空数据中心全是蠢主意,急了还骂观众

有人做视频抨击太空数据中心整个概念,被找出漏洞后,骂提意见的人都是马斯克粉丝,还情绪崩溃了

“Real engineering”做了一段粗制滥造的视频,攻击太空数据中心这个概念——不仅攻击他们提到的白皮书,还直接把整个概念称为愚蠢——现在这个创作者情绪崩溃了,还把所有找出他视频漏洞的人都叫做“Elon 舔狗”。

在 X 看原帖 ↗
407111
新品发布 · @geekbb▲ 928

5.2GiB开源大模型,想在低配迷你电脑上跑

有人用Claude的思维链数据微调出了推理模型,量化后体积仅5.2 GiB,打算测试它能不能在低配迷你电脑上运行

基于 Qwen3.5-9B、在 5 亿 token 的 Claude 思维链轨迹上全参数微调的推理模型,支持 1M 上下文、原生 Function Calling 和多模态视觉,GGUF 量化后 5.2 GiB,看看能不能在我的丐版 mini 上运行。

在 X 看原帖 ↗
928114
实战经验 · @snowmaker▲ 673

Claude用人类代码训练我,我也在训练它

Claude 经过人类编码会话的强化学习,用Claude Code越久,越会发现自己也在配合它调整指令方式,这是人类和AI共同进化的过程

Claude 是通过人类编码会话做强化学习训练出来的。但我用 Claude Code 用得越多,就越意识到我正在被 Claude Code 做强化学习——我正在学习给它发指令的最优方式,学习哪些内容它容易遗忘或者误解。

这感觉就是一种人类/AI共同进化。

在 X 看原帖 ↗
673193
行业动态 · @iScienceLuvr▲ 1.1K

外卖平台训练大模型?参数规模达到1.6T

训练用的是国产ASIC芯片,训练数据量35T tokens,性能逼近前沿大模型水平

「中国版 DoorDash」发布了一个在中文 ASIC 上训练,训练数据量为 35T tokens 的 1.6T 参数模型,性能接近前沿水平。

在 X 看原帖 ↗
1.1K51
深度观点 · @togethercompute▲ 1.2K

开源大模型变强了,现在战场换到这边来了

更多推理工作流入局竞争后,真正的比拼变成速度、成本、稳定性和控制权

随着开源模型能力持续增强,越来越多工作负载转移到竞争激烈的推理市场。

这会推动真正的竞争转向速度、成本、可靠性与可控性。

Together AI 就是让开源模型成为生产级基础设施的平台。

在 X 看原帖 ↗
1.2K162
新品发布 · @RoundtableSpace▲ 1.4万

AI代理能自动刷新闻写内容钩子

Agent OS 里的 Hermes Oracle 能自动收集AI新闻,自动按重要性排序,自动写内容钩子,不用碰浏览器标签就能存好生成内容

Hermes Oracle 内置在 Agent OS 中,会在 X 上扫描 AI 资讯,按重要程度排序,并自动撰写标题钩子。

所有内容都会保存到 Memory Galaxy,你的智能体就能自动把新闻转化为内容,你不需要操作任何标签页。

在 X 看原帖 ↗
1.4万207
开发 · @dejavucoder▲ 678

开发者非专业领域参赛获第十二名 推理 latency达1.8ms

开发者凭借Triton在AI优化竞赛获第十二名,后续将分享经验

最终以1.8ms拿到第12名。这不是我的专业领域,能做到这个程度真的很夸张。(感谢codex和modal)。我全程只用了triton。

如果大家感兴趣,我会写一篇博客介绍我这套结合HITL的极简自动研究工具链。现在该去看看头部参赛作品学习一下了。

我和我的agents需要在编写底层库代码上做得更好。我为了获得更多控制权,适配b200特定指令,尝试过用gluon/cuda写内核,但都失败了——写出来的比我用triton实现的还要慢。所以看来我得好好学一下这东西了。

在 X 看原帖 ↗
67810
访谈 · @altryne▲ 5.4K

AI Engineer创始人@swyx接受播客专访透露重大里程碑

@altryne发布对@swyx的走廊 candid 专访,提及明日重大里程碑

一段在走廊对本人的坦诚访谈——@swyx 可以说就是一期迷你播客,他和我聊了明天即将到来的一个重大里程碑,还有他对@aiDotEngineer感到意外的一些地方,以及……几件私人话题!

0:00 — Daily Context AIE 通讯
0:47 — @aiDotEngineer 增长
1:23 — 工坊路线与技能赛道
2:28 — Jam 角落与音乐
3:52 — AI Engineer 文章周年纪念
4:26 — 强度、诚信、自觉、疯狂
4:52 — AGI 药丸与疯狂福利
5:56 — 直播与 YouTube 行动号召

希望你能喜欢这场和缔造了这一切的男人的「幕后」对谈。

一起参与聊天的还有@kentcdodds @liadyosef @WolframRvnwlf @RayFernando1337 @Gangadhar_P。走廊访谈永远独一档!

在 X 看原帖 ↗
5.4K83010
产品开发 · @minchoi▲ 8.3K

Claude Code创作者分享全新原生AI产品团队图谱

Claude Code创作者Boris分享全新原生AI产品团队图谱

这真的就是全新的AI原生产品团队图谱。

它出自Claude Code的创造者Boris之手。

存下这张图。

在 X 看原帖 ↗
8.3K31843
生成式视频 · @RoundtableSpace▲ 3.9K

你听说吗?字节跳动能一键生成4K30秒短片了

推出的Seedance 2.0 & 2.5支持50种全模态参考输入,还支持3D白模。做短视频剪辑的人可以试试新工作流

ByteDance 刚刚推出了 Seedance 2.0 和 2.5,可以一次性生成 30 秒的 4K 短片。

支持 50 种全模态参考输入,支持 3D 白模。

他们不只是在做视频模型。他们正在围绕它搭建一整个 IP 业务。

在 X 看原帖 ↗
3.9K181
工具 · @llama_index▲ 4.0K

LlamaIndex推出了同时支持两种搜索的检索工具

既有语义搜索,也有服务端全文搜索,适配需要从大量文档里找信息的AI智能体,帮智能体解决单一搜索不够用的问题

阅读全文 →
4.0K53436
AI智能体 · @hwchase17▲ 3.9K

AI智能体现在支持程序自动创建子智能体了

动态子智能体功能可以按需生成子任务代理,还能在拆分任务时保留已有上下文的缓存命中,已经整理出6种不同的应用场景

deepagents 推出动态子代理功能!它允许你通过编程快速启动子代理。我们为该功能列举了 6 种不同的用例。

这是一个围绕模型路由和子代理委派的巧妙设计,同时能保证所有代理累积的上下文都能命中缓存。

这个设计非常合理:你肯定也希望所有子代理都能使用缓存中已累积的上下文。

在 X 看原帖 ↗
3.9K33218
量子计算 · @tbpn▲ 1.6K

有CEO说量子计算能把AI训练提速好几个量级

Sygaldry Technologies联合创始人兼CEO说量子技术可以给AI训练带来大幅速度提升,目前相关技术还在发展中

Sygaldry Technologies 联合创始人兼首席执行官 @chadrigetti 表示,量子计算可以将 AI 训练速度提升「好几个数量级」:

在 X 看原帖 ↗
1.6K5
开源 · @haider1▲ 4.9K

有人吐槽Anthropic是对开源最不友好的公司

称不到半年就会有中国大模型能以更低成本匹配Mythos的性能,接下来行业会迎来新的成本压力

在开源这件事上,anthropic 是最邪恶的公司。

我们很可能用不了六个月,就会出现一款能力能匹敌 mythos,但价格低得多的中国模型。

所以下一波压力将不只来自更聪明的模型——还来自普通人确实用得起的强力模型。

在 X 看原帖 ↗
4.9K6943
新品发布 · @minchoi▲ 1.6万

多家顶流开源 coding 模型打包包月,刚好撞上闭源模型收紧权限

在前沿大模型逐步收紧访问权限的当下,有人推出打包订阅服务,一次就能用到多款可用的开放权重代码模型,按月付费即可。

Cline 刚刚发布了 ClinePass。

它将多款能力出众的开源权重编码模型打包在了一起:GLM 5.2、Kimi、DeepSeek、MiniMax、MiMo 和 Qwen。

按月固定费用即可访问。

时机把握得恰到好处,因为前沿模型现在都开始设置准入限制了。

在 X 看原帖 ↗
1.6万13419
新品发布 · @EMostaque▲ 9.9K

不用GPU,5万颗中国ASIC跑出一流大模型

它在OpenRouter上成了最受欢迎的模型,训练全程只用国产ASIC,没用到GPU,能力达到Gemini/Opus 4.6级别

在@OpenRouter 上最热门的模型(10万亿 tokens),竟然是来自@Meituan_LongCat 的 1.6万亿参数 MoE 模型。

Meituan 就是中国的超级应用/DoorDash。

这个模型水平基本达到 Gemini / Opus 级别,总共在 5万颗中国自研 ASIC 上训练了 35万亿 tokens。

全程不需要 GPU。

在 X 看原帖 ↗
9.9K66831
行业动态 · @teortaxesTex▲ 1.1K

美团预训练大模型,用了五万多颗AI ASIC

业内人士确认这批芯片不是Ascend 950DT SuperPOD,没人说清美团到底用了什么硬件训练这个大模型。

哇哦,好了,来了。Owl Alpha。它是V4-scale模型,更新了DSA,加入了N-gram Embeddings,评测结果不错,「预训练在超过5万块AI ASIC……超算节点上」来自——我看一下笔记——美团。对哦。

这些显然不是Ascend 950DT SuperPOD(每个ASIC显存80GB)。他们到底用的是什么?!

在 X 看原帖 ↗
1.1K1145
前沿研究 · @LangChain▲ 4.5K

AI代理不再事后打分,边聊边修正方向

现有大多数AI代理只在任务结束后判定成败,这次有人做了实时调整的新模型

大多数智能体都是在任务结束后才被评分。非过即败,要么解决要么放弃。

而 @GetCandidly 构建了不一样的东西:一个能在对话进行过程中读取内容,并实时引导向问题解决的模型。

完整故事:

在 X 看原帖 ↗
4.5K72510
新品发布 · @hwchase17▲ 4.2K

检测AI智能体错误,成本只要闭源模型的1%

已经开始向早期合作方推送,现在开放抢先体验申请,能帮AI开发者省下大笔错误检测成本

我们今日开始向早期合作伙伴推出 Trace Judge 模型。

该模型旨在检测智能体轨迹中的错误,成本仅为闭源模型的百分之一。

如果你对提前访问感兴趣,请填写下方表单报名:

在 X 看原帖 ↗
4.2K5297
新品发布 · @omarsar0▲ 1.2万

一站式用多个开源大模型,不用再管理一堆API密钥

不用在不同平台来回切换,整理一堆API密钥就能直接使用多款最新开源权重模型,省了不少折腾的功夫

Cline这步做得很聪明。他们刚刚推出了ClinePass,让你可以轻松访问最新的开放权重模型,比如GLM 5.2、Kimi k2.7-code、Mimo 2.5、Deepseek v4 pro、Minimax M3等等。

不用同时管理一堆API密钥永远是件好事。

在 X 看原帖 ↗
1.2万34430
新品发布 · @GoogleAIStudio▲ 6.4K

Google AI Studio 新增功能,分享应用可带完整对话

切换一个按钮就能分享完整的制作流程和提示词,方便展示自己完整的AI开发工作流,省去手动整理的步骤

现在你在 AI Studio 中分享应用时,可以附上完整聊天记录了。

这是展示你具体工作流程、与他人分享提示词的好方法,只需要切换一个简单的开关就能完成。

在 X 看原帖 ↗
6.4K78724
工具产品 · @NFTCPS▲ 8.6K

用最土办法实现了多个AI一起协作干活

不用复杂后台,只靠shell命令和SQLite数据库传话,输入一句/squad就能拉起一队AI分工完成编码任务

多个 AI agent 一起干活这事,终于有人用最土的办法做出来了。

squad,一个 Rust 写的命令行工具,让 Claude Code、Gemini CLI、Codex、OpenCode 这几个 CLI agent 直接坐一桌协作。

它的思路特别朴素,没有后台守护进程,全靠 shell 命令加一个 SQLite 数据库传话,每条命令都是一锤子买卖。

玩法也简单,三个终端各开一个:
1️⃣ manager 负责拆任务、派活
2️⃣ worker 负责接活、干活、回报
3️⃣ inspector 在旁边盯着

一句 /squad 就能拉起一整队 AI 帮你打工,多开同角色还会自动编号,worker、worker-2 排好队。

🔗

在 X 看原帖 ↗
8.6K105356
实战经验 · @hwchase17▲ 6.9K

把LangGraph智能体转成语音智能体,现在超简单

现成的教程已经放出来了,想用语音AI的可以直接跟着操作

将 LangGraph 智能体转化成语音智能体从未如此简单!这里有一篇很棒的教程讲解了具体实现方法,教程使用了 @pipecat_ai

在 X 看原帖 ↗
6.9K54029
AI开发 · @HamelHusain▲ 449

Cursor AI推出远程开发+iOS新功能 需手动开启

开发者Hamel Husain分享开启步骤,并给出了对该功能的第一使用体验

想要体验Cursor AI推出的全新远程开发+iOS功能,需要在两处手动开启设置。该功能的入口隐藏在文档中,Hamel Husain本人也摸索了较长时间。

第一步,进入网页端的个人控制台开启功能,开启入口链接为

第二步,打开Cursor客户端,进入代理视图,选择本地+远程模式即可。

Hamel Husain给出了自己的第一使用感受。该功能的完成度不如OpenAI Codex的远程功能,它没有整理显示不同进程分别运行在哪台机器上。

用户只能点击进入具体会话,才能查看进程的运行位置信息。

在 X 看原帖 ↗
4492
AI工具 · @omarsar0▲ 3.1K

开发者Omar分享实测有效的人物搜索工具CLODOAI

多数同类工具提供静态过时信息,这款工具会实时检索网络并分析当前信息

终于有一款真正能用的人物搜索工具了。

目前大多数人物搜索工具,只会给用户提供一份静态过时的信息列表。

@CLODOAI不同,它会检索实时网络,读取相关信息信号,给出目标人物当前的具体相关分析。

Omar Sar 在𝕏上点赞了该工具,同时@了开发相关的@sixtensor和@vikchuppala。

在 X 看原帖 ↗
3.1K11012
AI编码 · @Li888Real▲ 9.5K

AI编码开始改变开发习惯 项目瞄准AI原生Web3开发

AI可快速生成常规应用代码,但Web3链上开发仍存诸多阻碍,Canopy推出AI原生基础设施降低门槛

投资 · @mnmn94253156337▲ 3.0K

分享普通人研究美股的标准化流程工具

介绍一套梳理美股研究维度的标准化工具流程

普通人研究美股,最容易卡在第一步:不知道该看什么 看 NVDA、TSLA、AAPL,不是只看财报 还要看估值、指引、同行、期权、分析师预期、新闻情绪 这个 Finance Skill,刚好把这些东西拆成了一套检查流程 财报前,看市场预期和历史 beat/miss。财报后,看 EPS、利润率、指引和价格反应。估值上,跑 DCF、相对估值和牛熊情景。

市场上,看同行相关性、期权收益图、Reddit / X / 新闻情绪。它不是喊单工具。更像是让 Claude Code 先帮你把一只股票该查的东西查完。

项目: 仅作工具分享,不构成投资建议。

在 X 看原帖 ↗
3.0K27415
硬件 · @bridgemindai▲ 552

M5 Max MacBook Pro对比NVIDIA DGX Spark本地AI运行

博主将对比两款设备运行本地AI模型的实际表现,结果明日公布

M5 Max MacBook Pro 对决 NVIDIA DGX Spark。今天我要测试出哪一台才更适合运行本地 AI 模型。

一边是搭载统一内存的 Apple silicon。另一边是为 AI 打造的专用 NVIDIA 硬件。

这是对本地推理未来的两种完全不同的路线押注。测试结果将于明天公布。

在 X 看原帖 ↗
5521102
商业 · @minchoi▲ 1.7万

马斯克要求优化Grok中各细小AI性能瓶颈

社交媒体曝光马斯克要求优化Grok的AI瓶颈

Elon 指着每一个他希望在 Grok 中优化的微小 AI 瓶颈。

在 X 看原帖 ↗
1.7万4398
前沿论文 · arXiv▲ 55

35B模型靠“想得更远”打败万亿参数

大模型军备竞赛一直拼参数,但这篇论文走了一条反直觉的路:用35B参数的模型,在长周期任务上打赢万亿参数模型。

大模型军备竞赛一直拼参数,但这篇论文走了一条反直觉的路:用35B参数的模型,在长周期任务上打赢万亿参数模型。秘诀不是堆算力,而是让模型学会“想得更远”——训练时喂平均4.5万token的超长轨迹,相当于让AI从只看眼前几步变成能规划一整盘棋。具体做法分三步:先让模型学会各种基础操作,再给每个领域配一个专家老师,最后用蒸馏技术把多个专家的本事融进一个模型里。

结果在科学推理、分子结合等需要深度思考的测试中,35B的Agents-A1直接对标甚至超过万亿参数的Kimi和DeepSeek。这不是你明天就能用的工具,但它指明了一个方向:参数不是唯一出路,让模型学会“深谋远虑”可能更划算。

大模型 · 智能体 · 长周期任务 · 蒸馏 · 参数效率
阅读全文 →
前沿论文 · arXiv▲ 49

AI学技能不再靠外挂,自己复盘就能变强

训练AI智能体(比如帮你订机票的对话机器人)时,一个核心难题是:它做完一整件事后,只知道最后成没成,但中间哪一步对、哪一步错完全没反馈。

训练AI智能体(比如帮你订机票的对话机器人)时,一个核心难题是:它做完一整件事后,只知道最后成没成,但中间哪一步对、哪一步错完全没反馈。这篇论文让AI自己从做过的任务里提取“技能”——比如“先查库存再下单”这种全局规则,或者“用户说“便宜点”时立刻推荐折扣款”这种局部技巧。它不依赖外部知识库,而是从当前策略刚跑完的轨迹中实时提炼,确保技能和当前状态匹配。

在三个测试环境(家务、购物、问答)中,这种自我复盘式训练让AI学得更快、更稳,尤其在复杂多轮对话中表现更鲁棒。它不是你明天就能用的工具,但揭示了强化学习训练语言模型的一个新方向:让AI自己当自己的教练。

强化学习 · 技能蒸馏 · 语言智能体 · 自我复盘 · 训练效率
阅读全文 →
前沿论文 · arXiv▲ 43

AI写代码:验证比生成更难

我们总以为检查答案比做答案容易,但AI写代码时反过来了:生成代码越来越简单,可靠地验证它是否做对了反而成了瓶颈。

我们总以为检查答案比做答案容易,但AI写代码时反过来了:生成代码越来越简单,可靠地验证它是否做对了反而成了瓶颈。研究者发现,任何自动验证器都只是人类意图的“代理”,永远不是意图本身——就像用选择题考理解,高分不代表真懂。他们测试了四种验证方式(测试用例、评分标准、真人检查、AI自动检查),发现没有一种能一劳永逸:随着AI变强,验证器会被“钻空子”或失效。

结论是:验证必须和生成能力一起进化,没有银弹。这不是你明天能用的技巧,但解释了为什么AI编程助手有时会“自信地犯错”——问题不在写代码,在判断对错。

AI编程 · 代码验证 · 奖励机制 · 意图对齐
阅读全文 →
前沿论文 · arXiv▲ 39

让AI视频不穿帮:物理一致性训练

现在的AI生成机器人操作视频,经常出现物体突然瞬移、手穿过物体等物理错误。

现在的AI生成机器人操作视频,经常出现物体突然瞬移、手穿过物体等物理错误。研究者发现根源在于运动物体变形和交互时时空关系混乱。他们提出PhysisForcing框架,在训练时额外监督两点:一是像素级轨迹对齐(让物体运动轨迹连续),二是语义级关系对齐(让物体间相对位置合理)。

在多个基准测试上,生成质量提升明显,更关键的是,作为世界模型用于机器人规划时,任务成功率从16%提升到24%。这不是你明天能用的工具,但它指向一个趋势:AI视频生成正从“看起来像”走向“物理上对”,这对机器人训练、自动驾驶仿真等场景至关重要。

视频生成 · 物理一致性 · 机器人操作 · 世界模型 · AI训练
阅读全文 →
前沿论文 · arXiv▲ 38

把图像压缩成文字一样的代码,还能不丢细节

AI 处理图像时,通常把图像变成连续的高维向量,这很占算力。

AI 处理图像时,通常把图像变成连续的高维向量,这很占算力。这篇论文反其道而行,把图像压缩成离散的代码——就像文字一样——但以往这么做会丢失大量细节。ViQ 用两阶段训练:先让视觉编码器从语言模型那里学语义,再通过一种渐进式压缩和位置感知的量化机制,把图像变成紧凑的代码,同时保留低层细节。

结果:在多个多模态任务上,ViQ 的性能不输传统连续向量方法,但训练速度提升了 20% 到 70%。它不是你明天能用上的,但它指向一个趋势:未来多模态模型可能不再需要高维视觉特征,而是像处理文字一样处理图像,更轻更快。

视觉量化 · 多模态 · 离散表示 · 训练加速
阅读全文 →
前沿论文 · arXiv▲ 37

大模型的「思考」其实没你想的那么深

我们总以为大模型在「思考」——它内部应该有一些抽象的概念、推理步骤。

我们总以为大模型在「思考」——它内部应该有一些抽象的概念、推理步骤。但一篇新论文用一套公理框架去检查,发现这些所谓的「潜在思维」其实很浅。研究者定义了四条公理:因果性(表示要能反映真实因果)、最小性(不冗余)、可分离性(不同任务能分开)、稳定性(同任务内一致)。

他们在23个推理任务上测试了多个开源模型,结果没有一个表示能同时满足所有公理。更扎心的是:模型能区分不同任务类型,但同一个任务里的两个不同问题,它的内部表示几乎分不清;而且这些表示携带的信息,大部分在输入嵌入里就已经有了。这个失败是结构性的,跟模型大小、训练方式无关。

它不是你明天能用上的,但它提醒你:别把大模型的「内部推理」想得太高级。

大模型 · 潜在思维 · 公理评估 · 推理失败 · 表示学习
阅读全文 →
前沿论文 · arXiv▲ 36

AI 终端助手评测:最强模型仅及格

AI 在终端里能做的事远不止写代码了——但现有评测跟不上。

AI 在终端里能做的事远不止写代码了——但现有评测跟不上。新基准 TUA-Bench 把 120 个真实任务分成五类,从文档编辑、邮件管理到实时查网页,甚至包括需要博士级专业软件的科研工程流程。结果:最强模型 Claude Code 综合得分 65.8%,离可靠通用助手还差一截。

这不是你明天能用上的工具,但它划了一条线:AI 在终端里的能力边界在哪,哪些场景还远没到位。

AI 终端 · 基准测试 · 通用智能 · Claude
阅读全文 →
前沿论文 · arXiv▲ 34

教机器人学人干活,关键在“翻译”动作

想让机器人像人一样灵巧地操作物体,最直接的想法是录下人的动作,让机器人模仿。

想让机器人像人一样灵巧地操作物体,最直接的想法是录下人的动作,让机器人模仿。但问题在于:人的手有5根手指,机器人只有两个夹爪,直接模仿就像让一个钳工去弹钢琴。这篇论文的解法很聪明——他们不学人的完整动作,只学“手腕在头部相机视野里的相对平移”。

这个信号人和机器人都有,而且不受手指差异的干扰。他们再用一个能处理不同“身体”的AI模型,把视觉、语言和动作指令混在一起训练。结果在双手机器人任务上,这种“翻译”后的动作比直接模仿人的6自由度姿态有效得多,而且数据越多效果越好。

它不是你明天就能用的技术,但给了一个新思路:与其让机器人硬学人的动作,不如先找到人和机器共通的“动作语言”。

机器人学习 · 技能迁移 · 人机协作 · 动作表示 · 模仿学习
阅读全文 →
前沿论文 · arXiv▲ 33

AI 智能体该何时停手?

你让 AI 帮你网购、查资料、操作终端,它可能一直瞎忙活,直到耗尽耐心或出错。

你让 AI 帮你网购、查资料、操作终端,它可能一直瞎忙活,直到耗尽耐心或出错。这篇研究定义了「智能体弃权」问题:AI 不仅要知道答案,更要知道何时该承认「这事办不了」并停止。测试了 13 个模型和 2 个框架在 2.8 万任务上的表现,发现大模型反而更爱死磕——比如在网页购物中,指令看似可行但实际无结果时,大模型会多花好几轮无用操作才放弃。

研究者还提出一种方法,把完整交互轨迹提炼成「停手规则」,不更新模型参数就让 Llama-3.3-70B 的及时弃权率从 26.7% 提升到 57.4%。这不是你明天能用上的功能,但它指出了 AI 可靠性的关键缺口:能干活不等于会判断该不该干。

智能体 · 弃权 · 可靠性 · 大模型 · 决策
阅读全文 →
前沿论文 · arXiv▲ 32

AI推理提速10倍:新方法打破猜测解码天花板

大模型推理慢,一个常用加速技巧是「猜测解码」:让小模型先快速猜几个词,大模型再批量验证。

大模型推理慢,一个常用加速技巧是「猜测解码」:让小模型先快速猜几个词,大模型再批量验证。但猜得越多,猜对的概率越低,而且猜的过程本身也耗时间,所以提速有天花板。JetSpec 把猜词过程改成「一次前向传播生成整棵候选树」,同时让每个分支的猜测都基于前一个分支的结果(因果条件化),这样猜出来的词更一致、更可能被大模型接受。

在数学题上达到9.64倍加速,日常对话也有4.58倍。这不是你明天能直接用的工具,但它指向一个趋势:AI推理的瓶颈正在被系统性地拆解,未来更快的模型服务会来自这类底层优化。

猜测解码 · 大模型推理加速 · 并行生成 · 因果条件化
阅读全文 →
前沿论文 · arXiv▲ 31

AI 世界模型:只会“常见”,一遇“反常”就崩

AI 生成图片和视频越来越逼真,但别被它骗了——它可能只是在“背答案”。

AI 生成图片和视频越来越逼真,但别被它骗了——它可能只是在“背答案”。研究者设计了一个新测试:让模型模拟“用锤子砸钉子”(常规)、“用砖头砸钉子”(反常但可行)、“用棉花砸钉子”(不可能)。结果发现,模型在常规任务上表现不错,但一遇到反常场景就大幅下降,遇到不可能场景更是直接崩溃。

进一步分析显示,模型根本没理解物理原理,只是在模仿训练数据里的视觉模式:图片模型搞不清状态变化,视频模型连时间一致性都保不住。这不是你明天能用上的工具,但它提醒你:别把 AI 的“看起来像”当成“真的懂”。

世界模型 · 物理推理 · 泛化能力 · 基准测试 · AI 局限性
阅读全文 →
前沿论文 · arXiv▲ 28

AI操作电脑:点鼠标不如写代码?

让AI帮你操作电脑,是让它像人一样点鼠标,还是直接写代码?

让AI帮你操作电脑,是让它像人一样点鼠标,还是直接写代码?这篇论文给出了反直觉的答案:在440个真实桌面任务上,纯鼠标操作的GUI智能体成功率59.1%,高于写代码的CLI智能体48.2%。但一旦给CLI智能体补上缺失的指令集,成功率立刻反超到69.3%。

也就是说,CLI的短板不是模型能力,而是你还没教会它所有命令。这不是你明天就能用的工具,但它告诉你:未来AI操作电脑的瓶颈不在“会不会点”,而在“会不会写”——以及你愿不愿意给它写全指令。

AI操作电脑 · GUI · CLI · 智能体 · 任务自动化
阅读全文 →
前沿论文 · arXiv▲ 28

AI画画也能用RL调教,效果肉眼可见

AI画图模型通常靠大量数据训练,但生成结果常偏离用户指令。

AI画图模型通常靠大量数据训练,但生成结果常偏离用户指令。这篇论文把强化学习(RL)用在了图像生成上:先训练多个奖励模型(分别评估美观度、指令匹配、人像保真等),再用这些奖励信号去优化生成模型,让模型学会自己调整输出。最终模型在图像生成和编辑任务上均显著提升,用户偏好评分提高78-93分。

这不是你明天能直接用的工具,但它展示了AI画图从“猜你想要”到“听你指挥”的关键一步。

强化学习 · 图像生成 · AI绘画 · 指令跟随 · 奖励模型
阅读全文 →
前沿论文 · arXiv▲ 25

AI规划提速:一次预测整条路径

AI做视觉规划时,传统方法要一步步模拟未来,像走一步看一步,既慢又容易累积错误。

AI做视觉规划时,传统方法要一步步模拟未来,像走一步看一步,既慢又容易累积错误。这篇论文让AI一次看完整个动作序列,直接预测最终结果,就像看地图直接规划路线,而不是一步步探路。在多个任务中,新方法不仅规划速度大幅提升,成功率也更高,且预测越长优势越明显。

虽然它不是你明天就能用的工具,但代表了AI规划能力从“慢思考”向“快预测”的重要转变。

视觉规划 · 世界模型 · 并行预测 · 加速 · AI
阅读全文 →
前沿论文 · arXiv▲ 23

机器人界的GPT时刻?对齐异构数据实现泛化

机器人操作一直有个死结:数据太杂——不同机器人、不同任务、不同动作格式,根本没法像训练大语言模型那样堆数据。

机器人操作一直有个死结:数据太杂——不同机器人、不同任务、不同动作格式,根本没法像训练大语言模型那样堆数据。这篇论文直接把这个结剪开了。他们搞了个统一对齐框架,把机器人的“看”(视觉)、“想”(语言指令)、“动”(动作轨迹)三个维度强行对齐成一套标准格式,然后从网上扒了3.8万小时的人类手部视频和开源数据集,自动转成机器人能用的训练数据。

结果呢?训练出来的模型Qwen-RobotManip在没见过的场景、没见过的机器人上都能零样本执行指令,甚至能自己从错误中恢复——比如抓东西掉了会重新抓。在多个极端测试中,它把之前最强的模型π0.5都甩开了,真实机器人上也能跑。

这不是你明天就能用的产品,但它证明了机器人操作可以走大模型那条路:只要对齐格式、堆数据,泛化能力就会自己冒出来。

机器人操作 · 基础模型 · 数据对齐 · 泛化能力 · 零样本学习
阅读全文 →
前沿论文 · arXiv▲ 23

AI看视频只会认物体,不会推理逻辑

现在的多模态大模型看视频,能认出“猫”和“沙发”,但如果你问它“猫先跳上沙发,再跳下,最后去了哪里”,它大概率答错。

现在的多模态大模型看视频,能认出“猫”和“沙发”,但如果你问它“猫先跳上沙发,再跳下,最后去了哪里”,它大概率答错。这不是因为它眼神不好,而是因为它缺乏“时间逻辑推理”能力——它不会把不同时刻的画面串起来,像人一样做因果推断。

研究者设计了一个专门测试这种能力的基准,把推理拆成5种基本操作:跟踪状态变化、按顺序计数、判断时间先后、理解动态空间关系、组合多个逻辑步骤。比如,一个任务里,屏幕上先出现一个红球,然后蓝球从左边移到右边,最后红球消失——模型需要回答“蓝球移动时,红球还在吗?”这种问题对人类很简单,但最强模型在复杂任务上准确率不到30%,而人类接近90%。

他们甚至用50万条合成数据去微调模型,效果有提升,但离人类还差一大截。这说明,当前AI的“推理”更多是模式匹配,不是真正的逻辑推演。

这不是你明天能用上的技术,但它划了一条线:别被AI“看懂视频”的演示骗了,它离理解“发生了什么”还很远。

多模态大模型 · 视频推理 · 时间逻辑 · 基准测试 · AI能力边界
阅读全文 →
前沿论文 · arXiv▲ 21

一个模型搞定所有导航任务,还能现场切换模式

现在的机器人导航模型通常只能干一件事:要么跟着指令走,要么找物体,要么自动驾驶。

现在的机器人导航模型通常只能干一件事:要么跟着指令走,要么找物体,要么自动驾驶。但真实场景里,机器人需要随时切换任务——比如先找目标物体,再跟踪它,最后自主驾驶到目的地。这篇论文让一个模型能同时处理所有这些任务,而且不需要换模型或改代码。

研究者设计了一个参数化接口,把导航行为拆成两个可调维度:任务模式(决定当前要做什么)和观察参数(控制看多少、怎么看)。训练时随机组合这些参数,模型就学会了在任何配置下都能工作。更关键的是,他们用15.6M样本训练,并混入视觉-语言数据,防止模型变成只会机械反应的“动作序列映射器”。

实际效果:在多个导航基准上刷新了纪录,从2B参数扩展到8B参数时性能持续提升,而且零样本迁移到真实机器人上也能用。

这不是你明天就能用的技术,但它展示了一个重要趋势:未来的机器人可能不再需要为每个任务单独训练模型,而是用一个通用模型加上动态配置来应对所有场景。

机器人导航 · 多任务模型 · 参数化接口 · 零样本泛化
阅读全文 →
前沿论文 · arXiv▲ 20

AI训练提速3.8倍,但数据过期了怎么办?

大模型后训练中,一种叫“同策略蒸馏”的方法越来越重要,但它有个瓶颈:生成训练数据(rollout)比模型学习慢得多,尤其是推理任务。

大模型后训练中,一种叫“同策略蒸馏”的方法越来越重要,但它有个瓶颈:生成训练数据(rollout)比模型学习慢得多,尤其是推理任务。这篇论文提出异步方案,让数据生成和学习并行,训练速度提升1.6到3.8倍。但代价是数据可能“过期”——模型已经更新,数据却来自旧版本。

他们发现,不同蒸馏方式对过期数据的容忍度不同:一种叫“前向KL”的更稳健,而“反向KL”则脆弱。对于后者,他们尝试了强化学习中常用的稳定技巧,但效果不如一个简单方法:在学习时用当前模型重新计算损失。此外,他们还解决了教师模型评分缓存带来的偏差-方差权衡,提出多采样蒙特卡洛方法。

最终开源的AsyncOPD框架在保持精度的同时大幅提速。这不是你明天能直接用的工具,但它揭示了AI训练中一个关键权衡:速度与数据新鲜度,以及如何聪明地应对。

异步训练 · 同策略蒸馏 · 大模型 · 训练加速 · 数据过期
阅读全文 →
前沿论文 · arXiv▲ 18

AI推理内存省一半,不用再猜阈值

大模型推理时,内存大头是KV缓存。

大模型推理时,内存大头是KV缓存。现有压缩方法需要你提前猜一个“阈值”——比如保留多少缓存——猜错了性能就崩。这篇ReFreeKV直接扔掉阈值,让模型自己动态分配缓存:简单问题少存,复杂问题多存。

在13个数据集上,它把内存砍掉一半,性能几乎不掉。它不是你明天能用上的,但方向很明确:AI推理正在从“调参玄学”走向“自适应”。

KV缓存压缩 · 阈值无关 · 自适应内存 · 大模型推理
阅读全文 →
前沿论文 · arXiv▲ 18

AI 智能体在复杂任务上成功率仅 19%,人类超 80%

AI 智能体在简单任务上已经接近满分,但一碰到需要时间感知、图形理解或 3D 推理的复杂场景就露馅了。

AI 智能体在简单任务上已经接近满分,但一碰到需要时间感知、图形理解或 3D 推理的复杂场景就露馅了。研究者搞了个叫 GauntletBench 的测试,包含视频编辑、工作流搭建、3D 建模、飞行分析和电路设计 5 个专业领域,每个 20 个视觉密集型任务。结果最强 AI 智能体成功率只有 19.1%,而普通人能达到 80% 以上。

这不是你明天能用上的东西,但它划了一条线:别被 AI 在聊天和写代码上的表现骗了,在需要真正理解世界、处理复杂视觉信息的场景里,它离人类还差得远。

AI智能体 · 基准测试 · 能力评估 · 视觉推理 · 人类对比
阅读全文 →
前沿论文 · arXiv▲ 18

用哈希签名替代词表,大模型参数省了但更强了

大模型通常需要一张巨大的词表来记住每个词,词越大模型越胖。

大模型通常需要一张巨大的词表来记住每个词,词越大模型越胖。这篇论文反其道而行:把每个词变成一串短的哈希签名(类似指纹),用多个哈希函数生成,再通过专门的编码器和解码器处理。结果在1亿到30亿参数规模上,不仅参数更少,性能反而超过传统Transformer。

更意外的是,它支持多语言扩展时参数不增加——加新语言不用加词表。这不是你明天能用的技术,但它指向一个趋势:未来大模型可能不再靠死记硬背词表,而是靠巧妙的压缩表示来兼顾效率和能力。

哈希 · 语言模型 · 参数效率 · 多语言 · Transformer
阅读全文 →
前沿论文 · arXiv▲ 15

手机也能跑3D高斯渲染了

3D高斯泼溅(3D Gaussian Splatting)是目前最逼真的新视角合成技术,但它的计算和存储开销巨大,尤其是高阶球谐函数(SH)部分,导致手机根本跑不动。

3D高斯泼溅(3D Gaussian Splatting)是目前最逼真的新视角合成技术,但它的计算和存储开销巨大,尤其是高阶球谐函数(SH)部分,导致手机根本跑不动。这篇论文的Flux-GS方法用蒙特卡洛采样把高阶光照信息压缩进一个紧凑的隐空间,只保留低阶部分,再通过一个属性条件增强模块补回高频细节——这个模块不增加推理成本。此外,他们用多视角信息来指导高斯点的增删,避免生成过多冗余点。

结果是在保持画质的前提下,参数大幅减少,手机端能实时渲染。它不是你明天就能用的App,但让手机跑3D高斯渲染从不可能变成了可能。

3D高斯泼溅 · 移动端渲染 · 实时渲染 · 蒙特卡洛 · 球谐函数
阅读全文 →
前沿论文 · arXiv▲ 11

AI安全新思路:让规则像插件一样随时换

现在的AI安全审核像一张死板的黑名单——只能识别预设的违规类型,一旦规则变了就得重新训练。

现在的AI安全审核像一张死板的黑名单——只能识别预设的违规类型,一旦规则变了就得重新训练。SingGuard把规则变成运行时输入:你直接告诉它“不许提某品牌”“不能讨论某话题”,它就能按新规则逐条检查对话内容,并告诉你触发了哪条。更聪明的是,它有三种推理模式:快速判断、混合推理、慢速深思,用强化学习自动切换,在效率和准确性之间找平衡。

在56,340个样本的测试中,它比现有方案平均F1分数更高,且规则切换后准确率从64.65%提升到74.15%。这不是你明天能用的工具,但它指向一个趋势:未来的AI安全将像法律条文一样可动态更新,而非固化在模型参数里。

AI安全 · 多模态 · 动态规则 · 安全审核 · 强化学习
阅读全文 →
前沿论文 · arXiv▲ 11

AI看视频学做事,关键帧提取是瓶颈

现在的AI看视频答题已经很强,但让它看完视频教程后动手操作(比如跟着视频学用软件),它就不行了。

现在的AI看视频答题已经很强,但让它看完视频教程后动手操作(比如跟着视频学用软件),它就不行了。研究者发现,问题出在AI不会挑关键帧——它把每一帧都当重点,结果信息过载。他们设计了一个新算法TASKER,能同时考虑“任务相关”和“场景变化”,只挑出真正有用的帧。

在视频问答和GUI操作两个任务上,这个算法都让AI表现更好。虽然你明天用不上,但它点出了一个趋势:AI从“看懂”到“学会做事”,关键帧提取可能是必须跨过的坎。

视频理解 · 关键帧提取 · GUI智能体 · 多模态大模型 · 基准测试
阅读全文 →
前沿论文 · arXiv▲ 11

AI工具调用:有用还是添乱?新方法精准打分

现在的AI智能体可以调用工具(比如代码)来处理图片,但工具调用有时有用,有时多余,甚至误导。

现在的AI智能体可以调用工具(比如代码)来处理图片,但工具调用有时有用,有时多余,甚至误导。传统方法只看最终答案对不对,无法区分每个工具的具体贡献。这篇论文提出TACO方法,通过两个巧妙机制给每个工具调用单独打分:一是插入“探针”让AI自己预测“用了这个工具会怎样、不用又会怎样”,差值就是工具的真实价值;二是只把最终奖励分配给真正起作用的工具调用,避免奖励被无效调用稀释。

实验表明,AI学会了只在需要时才调用工具,准确率持续提升。它不是你明天就能直接用的功能,但展示了让AI更高效、更可信地使用工具的前沿思路。

AI智能体 · 工具调用 · 奖励分配 · 多模态 · GRPO
阅读全文 →
前沿论文 · arXiv▲ 11

AI学会了“世界模型”:不只看下一帧,而是理解世界状态

大多数AI模型只做一件事:预测下一个词、下一帧画面或下一个动作。

大多数AI模型只做一件事:预测下一个词、下一帧画面或下一个动作。Orca打破了这种割裂,它学习一个统一的“世界潜在空间”,把视频、语言、动作等不同信号压缩成同一个内部表示,然后通过轻量级的解码器去完成文本生成、图像预测、机器人动作等不同任务。它的训练方式也很有意思:一部分像潜意识一样从连续视频中捕捉密集的状态变化,另一部分像意识一样通过语言描述的事件和问答来学习稀疏但有意义的状态转移。

预训练用了12.5万小时视频和1.6亿事件标注,但训练好的主干冻结后,下游任务只需训练很小的解码器。实验表明,更强的世界潜在空间能带来更强的下游表现,甚至超过了专门为某个任务训练的模型。这不是你明天就能用的工具,但它指向了一个方向:AI不再只是模式匹配,而是开始构建对世界如何运转的通用理解。

世界模型 · 多模态 · 状态预测 · 通用AI · 预训练
阅读全文 →
📑 前沿论文
前沿论文 · arXiv▲ 57

机器人看一眼自己动一动,就能适应新环境

现在的机器人视觉-语言-动作模型很笨:换个摄像头角度或换条机械臂,它就得重新训练。

现在的机器人视觉-语言-动作模型很笨:换个摄像头角度或换条机械臂,它就得重新训练。这篇论文让机器人先自己乱动几下,从动作结果中自动推断出“我现在是什么配置”,然后就能直接在新环境下干活,不用更新参数。在仿真和真实机器人上,它在新摄像头角度下的表现远超传统方法。

它不是你明天就能用的产品,但指明了让机器人更灵活的新方向。

机器人 · 世界模型 · 上下文学习 · 系统辨识 · 泛化
阅读全文 →
前沿论文 · arXiv▲ 57

视频编辑实时化:逐帧改,背景不崩

现在的AI视频编辑要么慢到没法实时互动,要么改几帧后背景就乱飘。

现在的AI视频编辑要么慢到没法实时互动,要么改几帧后背景就乱飘。这篇论文搞了个新框架,核心是三步蒸馏:先让一个强大的双向模型学会编辑,再把能力一步步传给一个单向的流式模型,这样就能一帧一帧地改,同时保持背景和未编辑区域稳定。他们还发明了一个AR专用的遮罩缓存,把重复计算省掉,推理速度飙到12.66帧每秒,够实时用了。

这不是你明天就能用的工具,但它指明了方向:实时视频编辑离交互式AR应用又近了一步。

视频编辑 · 实时 · 流式处理 · 蒸馏 · AR
阅读全文 →
前沿论文 · arXiv▲ 55

35B模型靠“想得更远”打败万亿参数

大模型军备竞赛一直拼参数,但这篇论文走了一条反直觉的路:用35B参数的模型,在长周期任务上打赢万亿参数模型。

大模型军备竞赛一直拼参数,但这篇论文走了一条反直觉的路:用35B参数的模型,在长周期任务上打赢万亿参数模型。秘诀不是堆算力,而是让模型学会“想得更远”——训练时喂平均4.5万token的超长轨迹,相当于让AI从只看眼前几步变成能规划一整盘棋。具体做法分三步:先让模型学会各种基础操作,再给每个领域配一个专家老师,最后用蒸馏技术把多个专家的本事融进一个模型里。

结果在科学推理、分子结合等需要深度思考的测试中,35B的Agents-A1直接对标甚至超过万亿参数的Kimi和DeepSeek。这不是你明天就能用的工具,但它指明了一个方向:参数不是唯一出路,让模型学会“深谋远虑”可能更划算。

大模型 · 智能体 · 长周期任务 · 蒸馏 · 参数效率
阅读全文 →
前沿论文 · arXiv▲ 49

AI学技能不再靠外挂,自己复盘就能变强

训练AI智能体(比如帮你订机票的对话机器人)时,一个核心难题是:它做完一整件事后,只知道最后成没成,但中间哪一步对、哪一步错完全没反馈。

训练AI智能体(比如帮你订机票的对话机器人)时,一个核心难题是:它做完一整件事后,只知道最后成没成,但中间哪一步对、哪一步错完全没反馈。这篇论文让AI自己从做过的任务里提取“技能”——比如“先查库存再下单”这种全局规则,或者“用户说“便宜点”时立刻推荐折扣款”这种局部技巧。它不依赖外部知识库,而是从当前策略刚跑完的轨迹中实时提炼,确保技能和当前状态匹配。

在三个测试环境(家务、购物、问答)中,这种自我复盘式训练让AI学得更快、更稳,尤其在复杂多轮对话中表现更鲁棒。它不是你明天就能用的工具,但揭示了强化学习训练语言模型的一个新方向:让AI自己当自己的教练。

强化学习 · 技能蒸馏 · 语言智能体 · 自我复盘 · 训练效率
阅读全文 →
前沿论文 · arXiv▲ 43

AI写代码:验证比生成更难

我们总以为检查答案比做答案容易,但AI写代码时反过来了:生成代码越来越简单,可靠地验证它是否做对了反而成了瓶颈。

我们总以为检查答案比做答案容易,但AI写代码时反过来了:生成代码越来越简单,可靠地验证它是否做对了反而成了瓶颈。研究者发现,任何自动验证器都只是人类意图的“代理”,永远不是意图本身——就像用选择题考理解,高分不代表真懂。他们测试了四种验证方式(测试用例、评分标准、真人检查、AI自动检查),发现没有一种能一劳永逸:随着AI变强,验证器会被“钻空子”或失效。

结论是:验证必须和生成能力一起进化,没有银弹。这不是你明天能用的技巧,但解释了为什么AI编程助手有时会“自信地犯错”——问题不在写代码,在判断对错。

AI编程 · 代码验证 · 奖励机制 · 意图对齐
阅读全文 →
前沿论文 · arXiv▲ 39

让AI视频不穿帮:物理一致性训练

现在的AI生成机器人操作视频,经常出现物体突然瞬移、手穿过物体等物理错误。

现在的AI生成机器人操作视频,经常出现物体突然瞬移、手穿过物体等物理错误。研究者发现根源在于运动物体变形和交互时时空关系混乱。他们提出PhysisForcing框架,在训练时额外监督两点:一是像素级轨迹对齐(让物体运动轨迹连续),二是语义级关系对齐(让物体间相对位置合理)。

在多个基准测试上,生成质量提升明显,更关键的是,作为世界模型用于机器人规划时,任务成功率从16%提升到24%。这不是你明天能用的工具,但它指向一个趋势:AI视频生成正从“看起来像”走向“物理上对”,这对机器人训练、自动驾驶仿真等场景至关重要。

视频生成 · 物理一致性 · 机器人操作 · 世界模型 · AI训练
阅读全文 →
前沿论文 · arXiv▲ 38

把图像压缩成文字一样的代码,还能不丢细节

AI 处理图像时,通常把图像变成连续的高维向量,这很占算力。

AI 处理图像时,通常把图像变成连续的高维向量,这很占算力。这篇论文反其道而行,把图像压缩成离散的代码——就像文字一样——但以往这么做会丢失大量细节。ViQ 用两阶段训练:先让视觉编码器从语言模型那里学语义,再通过一种渐进式压缩和位置感知的量化机制,把图像变成紧凑的代码,同时保留低层细节。

结果:在多个多模态任务上,ViQ 的性能不输传统连续向量方法,但训练速度提升了 20% 到 70%。它不是你明天能用上的,但它指向一个趋势:未来多模态模型可能不再需要高维视觉特征,而是像处理文字一样处理图像,更轻更快。

视觉量化 · 多模态 · 离散表示 · 训练加速
阅读全文 →
前沿论文 · arXiv▲ 37

大模型的「思考」其实没你想的那么深

我们总以为大模型在「思考」——它内部应该有一些抽象的概念、推理步骤。

我们总以为大模型在「思考」——它内部应该有一些抽象的概念、推理步骤。但一篇新论文用一套公理框架去检查,发现这些所谓的「潜在思维」其实很浅。研究者定义了四条公理:因果性(表示要能反映真实因果)、最小性(不冗余)、可分离性(不同任务能分开)、稳定性(同任务内一致)。

他们在23个推理任务上测试了多个开源模型,结果没有一个表示能同时满足所有公理。更扎心的是:模型能区分不同任务类型,但同一个任务里的两个不同问题,它的内部表示几乎分不清;而且这些表示携带的信息,大部分在输入嵌入里就已经有了。这个失败是结构性的,跟模型大小、训练方式无关。

它不是你明天能用上的,但它提醒你:别把大模型的「内部推理」想得太高级。

大模型 · 潜在思维 · 公理评估 · 推理失败 · 表示学习
阅读全文 →
前沿论文 · arXiv▲ 36

AI 终端助手评测:最强模型仅及格

AI 在终端里能做的事远不止写代码了——但现有评测跟不上。

AI 在终端里能做的事远不止写代码了——但现有评测跟不上。新基准 TUA-Bench 把 120 个真实任务分成五类,从文档编辑、邮件管理到实时查网页,甚至包括需要博士级专业软件的科研工程流程。结果:最强模型 Claude Code 综合得分 65.8%,离可靠通用助手还差一截。

这不是你明天能用上的工具,但它划了一条线:AI 在终端里的能力边界在哪,哪些场景还远没到位。

AI 终端 · 基准测试 · 通用智能 · Claude
阅读全文 →
前沿论文 · arXiv▲ 34

教机器人学人干活,关键在“翻译”动作

想让机器人像人一样灵巧地操作物体,最直接的想法是录下人的动作,让机器人模仿。

想让机器人像人一样灵巧地操作物体,最直接的想法是录下人的动作,让机器人模仿。但问题在于:人的手有5根手指,机器人只有两个夹爪,直接模仿就像让一个钳工去弹钢琴。这篇论文的解法很聪明——他们不学人的完整动作,只学“手腕在头部相机视野里的相对平移”。

这个信号人和机器人都有,而且不受手指差异的干扰。他们再用一个能处理不同“身体”的AI模型,把视觉、语言和动作指令混在一起训练。结果在双手机器人任务上,这种“翻译”后的动作比直接模仿人的6自由度姿态有效得多,而且数据越多效果越好。

它不是你明天就能用的技术,但给了一个新思路:与其让机器人硬学人的动作,不如先找到人和机器共通的“动作语言”。

机器人学习 · 技能迁移 · 人机协作 · 动作表示 · 模仿学习
阅读全文 →
前沿论文 · arXiv▲ 33

AI 智能体该何时停手?

你让 AI 帮你网购、查资料、操作终端,它可能一直瞎忙活,直到耗尽耐心或出错。

你让 AI 帮你网购、查资料、操作终端,它可能一直瞎忙活,直到耗尽耐心或出错。这篇研究定义了「智能体弃权」问题:AI 不仅要知道答案,更要知道何时该承认「这事办不了」并停止。测试了 13 个模型和 2 个框架在 2.8 万任务上的表现,发现大模型反而更爱死磕——比如在网页购物中,指令看似可行但实际无结果时,大模型会多花好几轮无用操作才放弃。

研究者还提出一种方法,把完整交互轨迹提炼成「停手规则」,不更新模型参数就让 Llama-3.3-70B 的及时弃权率从 26.7% 提升到 57.4%。这不是你明天能用上的功能,但它指出了 AI 可靠性的关键缺口:能干活不等于会判断该不该干。

智能体 · 弃权 · 可靠性 · 大模型 · 决策
阅读全文 →
前沿论文 · arXiv▲ 32

AI推理提速10倍:新方法打破猜测解码天花板

大模型推理慢,一个常用加速技巧是「猜测解码」:让小模型先快速猜几个词,大模型再批量验证。

大模型推理慢,一个常用加速技巧是「猜测解码」:让小模型先快速猜几个词,大模型再批量验证。但猜得越多,猜对的概率越低,而且猜的过程本身也耗时间,所以提速有天花板。JetSpec 把猜词过程改成「一次前向传播生成整棵候选树」,同时让每个分支的猜测都基于前一个分支的结果(因果条件化),这样猜出来的词更一致、更可能被大模型接受。

在数学题上达到9.64倍加速,日常对话也有4.58倍。这不是你明天能直接用的工具,但它指向一个趋势:AI推理的瓶颈正在被系统性地拆解,未来更快的模型服务会来自这类底层优化。

猜测解码 · 大模型推理加速 · 并行生成 · 因果条件化
阅读全文 →
前沿论文 · arXiv▲ 31

AI 世界模型:只会“常见”,一遇“反常”就崩

AI 生成图片和视频越来越逼真,但别被它骗了——它可能只是在“背答案”。

AI 生成图片和视频越来越逼真,但别被它骗了——它可能只是在“背答案”。研究者设计了一个新测试:让模型模拟“用锤子砸钉子”(常规)、“用砖头砸钉子”(反常但可行)、“用棉花砸钉子”(不可能)。结果发现,模型在常规任务上表现不错,但一遇到反常场景就大幅下降,遇到不可能场景更是直接崩溃。

进一步分析显示,模型根本没理解物理原理,只是在模仿训练数据里的视觉模式:图片模型搞不清状态变化,视频模型连时间一致性都保不住。这不是你明天能用上的工具,但它提醒你:别把 AI 的“看起来像”当成“真的懂”。

世界模型 · 物理推理 · 泛化能力 · 基准测试 · AI 局限性
阅读全文 →
前沿论文 · arXiv▲ 28

AI操作电脑:点鼠标不如写代码?

让AI帮你操作电脑,是让它像人一样点鼠标,还是直接写代码?

让AI帮你操作电脑,是让它像人一样点鼠标,还是直接写代码?这篇论文给出了反直觉的答案:在440个真实桌面任务上,纯鼠标操作的GUI智能体成功率59.1%,高于写代码的CLI智能体48.2%。但一旦给CLI智能体补上缺失的指令集,成功率立刻反超到69.3%。

也就是说,CLI的短板不是模型能力,而是你还没教会它所有命令。这不是你明天就能用的工具,但它告诉你:未来AI操作电脑的瓶颈不在“会不会点”,而在“会不会写”——以及你愿不愿意给它写全指令。

AI操作电脑 · GUI · CLI · 智能体 · 任务自动化
阅读全文 →
前沿论文 · arXiv▲ 28

AI画画也能用RL调教,效果肉眼可见

AI画图模型通常靠大量数据训练,但生成结果常偏离用户指令。

AI画图模型通常靠大量数据训练,但生成结果常偏离用户指令。这篇论文把强化学习(RL)用在了图像生成上:先训练多个奖励模型(分别评估美观度、指令匹配、人像保真等),再用这些奖励信号去优化生成模型,让模型学会自己调整输出。最终模型在图像生成和编辑任务上均显著提升,用户偏好评分提高78-93分。

这不是你明天能直接用的工具,但它展示了AI画图从“猜你想要”到“听你指挥”的关键一步。

强化学习 · 图像生成 · AI绘画 · 指令跟随 · 奖励模型
阅读全文 →
前沿论文 · arXiv▲ 25

AI规划提速:一次预测整条路径

AI做视觉规划时,传统方法要一步步模拟未来,像走一步看一步,既慢又容易累积错误。

AI做视觉规划时,传统方法要一步步模拟未来,像走一步看一步,既慢又容易累积错误。这篇论文让AI一次看完整个动作序列,直接预测最终结果,就像看地图直接规划路线,而不是一步步探路。在多个任务中,新方法不仅规划速度大幅提升,成功率也更高,且预测越长优势越明显。

虽然它不是你明天就能用的工具,但代表了AI规划能力从“慢思考”向“快预测”的重要转变。

视觉规划 · 世界模型 · 并行预测 · 加速 · AI
阅读全文 →
前沿论文 · arXiv▲ 23

机器人界的GPT时刻?对齐异构数据实现泛化

机器人操作一直有个死结:数据太杂——不同机器人、不同任务、不同动作格式,根本没法像训练大语言模型那样堆数据。

机器人操作一直有个死结:数据太杂——不同机器人、不同任务、不同动作格式,根本没法像训练大语言模型那样堆数据。这篇论文直接把这个结剪开了。他们搞了个统一对齐框架,把机器人的“看”(视觉)、“想”(语言指令)、“动”(动作轨迹)三个维度强行对齐成一套标准格式,然后从网上扒了3.8万小时的人类手部视频和开源数据集,自动转成机器人能用的训练数据。

结果呢?训练出来的模型Qwen-RobotManip在没见过的场景、没见过的机器人上都能零样本执行指令,甚至能自己从错误中恢复——比如抓东西掉了会重新抓。在多个极端测试中,它把之前最强的模型π0.5都甩开了,真实机器人上也能跑。

这不是你明天就能用的产品,但它证明了机器人操作可以走大模型那条路:只要对齐格式、堆数据,泛化能力就会自己冒出来。

机器人操作 · 基础模型 · 数据对齐 · 泛化能力 · 零样本学习
阅读全文 →
前沿论文 · arXiv▲ 23

AI看视频只会认物体,不会推理逻辑

现在的多模态大模型看视频,能认出“猫”和“沙发”,但如果你问它“猫先跳上沙发,再跳下,最后去了哪里”,它大概率答错。

现在的多模态大模型看视频,能认出“猫”和“沙发”,但如果你问它“猫先跳上沙发,再跳下,最后去了哪里”,它大概率答错。这不是因为它眼神不好,而是因为它缺乏“时间逻辑推理”能力——它不会把不同时刻的画面串起来,像人一样做因果推断。

研究者设计了一个专门测试这种能力的基准,把推理拆成5种基本操作:跟踪状态变化、按顺序计数、判断时间先后、理解动态空间关系、组合多个逻辑步骤。比如,一个任务里,屏幕上先出现一个红球,然后蓝球从左边移到右边,最后红球消失——模型需要回答“蓝球移动时,红球还在吗?”这种问题对人类很简单,但最强模型在复杂任务上准确率不到30%,而人类接近90%。

他们甚至用50万条合成数据去微调模型,效果有提升,但离人类还差一大截。这说明,当前AI的“推理”更多是模式匹配,不是真正的逻辑推演。

这不是你明天能用上的技术,但它划了一条线:别被AI“看懂视频”的演示骗了,它离理解“发生了什么”还很远。

多模态大模型 · 视频推理 · 时间逻辑 · 基准测试 · AI能力边界
阅读全文 →
前沿论文 · arXiv▲ 21

一个模型搞定所有导航任务,还能现场切换模式

现在的机器人导航模型通常只能干一件事:要么跟着指令走,要么找物体,要么自动驾驶。

现在的机器人导航模型通常只能干一件事:要么跟着指令走,要么找物体,要么自动驾驶。但真实场景里,机器人需要随时切换任务——比如先找目标物体,再跟踪它,最后自主驾驶到目的地。这篇论文让一个模型能同时处理所有这些任务,而且不需要换模型或改代码。

研究者设计了一个参数化接口,把导航行为拆成两个可调维度:任务模式(决定当前要做什么)和观察参数(控制看多少、怎么看)。训练时随机组合这些参数,模型就学会了在任何配置下都能工作。更关键的是,他们用15.6M样本训练,并混入视觉-语言数据,防止模型变成只会机械反应的“动作序列映射器”。

实际效果:在多个导航基准上刷新了纪录,从2B参数扩展到8B参数时性能持续提升,而且零样本迁移到真实机器人上也能用。

这不是你明天就能用的技术,但它展示了一个重要趋势:未来的机器人可能不再需要为每个任务单独训练模型,而是用一个通用模型加上动态配置来应对所有场景。

机器人导航 · 多任务模型 · 参数化接口 · 零样本泛化
阅读全文 →
前沿论文 · arXiv▲ 20

AI训练提速3.8倍,但数据过期了怎么办?

大模型后训练中,一种叫“同策略蒸馏”的方法越来越重要,但它有个瓶颈:生成训练数据(rollout)比模型学习慢得多,尤其是推理任务。

大模型后训练中,一种叫“同策略蒸馏”的方法越来越重要,但它有个瓶颈:生成训练数据(rollout)比模型学习慢得多,尤其是推理任务。这篇论文提出异步方案,让数据生成和学习并行,训练速度提升1.6到3.8倍。但代价是数据可能“过期”——模型已经更新,数据却来自旧版本。

他们发现,不同蒸馏方式对过期数据的容忍度不同:一种叫“前向KL”的更稳健,而“反向KL”则脆弱。对于后者,他们尝试了强化学习中常用的稳定技巧,但效果不如一个简单方法:在学习时用当前模型重新计算损失。此外,他们还解决了教师模型评分缓存带来的偏差-方差权衡,提出多采样蒙特卡洛方法。

最终开源的AsyncOPD框架在保持精度的同时大幅提速。这不是你明天能直接用的工具,但它揭示了AI训练中一个关键权衡:速度与数据新鲜度,以及如何聪明地应对。

异步训练 · 同策略蒸馏 · 大模型 · 训练加速 · 数据过期
阅读全文 →
前沿论文 · arXiv▲ 18

AI推理内存省一半,不用再猜阈值

大模型推理时,内存大头是KV缓存。

大模型推理时,内存大头是KV缓存。现有压缩方法需要你提前猜一个“阈值”——比如保留多少缓存——猜错了性能就崩。这篇ReFreeKV直接扔掉阈值,让模型自己动态分配缓存:简单问题少存,复杂问题多存。

在13个数据集上,它把内存砍掉一半,性能几乎不掉。它不是你明天能用上的,但方向很明确:AI推理正在从“调参玄学”走向“自适应”。

KV缓存压缩 · 阈值无关 · 自适应内存 · 大模型推理
阅读全文 →
前沿论文 · arXiv▲ 18

AI 智能体在复杂任务上成功率仅 19%,人类超 80%

AI 智能体在简单任务上已经接近满分,但一碰到需要时间感知、图形理解或 3D 推理的复杂场景就露馅了。

AI 智能体在简单任务上已经接近满分,但一碰到需要时间感知、图形理解或 3D 推理的复杂场景就露馅了。研究者搞了个叫 GauntletBench 的测试,包含视频编辑、工作流搭建、3D 建模、飞行分析和电路设计 5 个专业领域,每个 20 个视觉密集型任务。结果最强 AI 智能体成功率只有 19.1%,而普通人能达到 80% 以上。

这不是你明天能用上的东西,但它划了一条线:别被 AI 在聊天和写代码上的表现骗了,在需要真正理解世界、处理复杂视觉信息的场景里,它离人类还差得远。

AI智能体 · 基准测试 · 能力评估 · 视觉推理 · 人类对比
阅读全文 →
前沿论文 · arXiv▲ 18

用哈希签名替代词表,大模型参数省了但更强了

大模型通常需要一张巨大的词表来记住每个词,词越大模型越胖。

大模型通常需要一张巨大的词表来记住每个词,词越大模型越胖。这篇论文反其道而行:把每个词变成一串短的哈希签名(类似指纹),用多个哈希函数生成,再通过专门的编码器和解码器处理。结果在1亿到30亿参数规模上,不仅参数更少,性能反而超过传统Transformer。

更意外的是,它支持多语言扩展时参数不增加——加新语言不用加词表。这不是你明天能用的技术,但它指向一个趋势:未来大模型可能不再靠死记硬背词表,而是靠巧妙的压缩表示来兼顾效率和能力。

哈希 · 语言模型 · 参数效率 · 多语言 · Transformer
阅读全文 →
前沿论文 · arXiv▲ 15

手机也能跑3D高斯渲染了

3D高斯泼溅(3D Gaussian Splatting)是目前最逼真的新视角合成技术,但它的计算和存储开销巨大,尤其是高阶球谐函数(SH)部分,导致手机根本跑不动。

3D高斯泼溅(3D Gaussian Splatting)是目前最逼真的新视角合成技术,但它的计算和存储开销巨大,尤其是高阶球谐函数(SH)部分,导致手机根本跑不动。这篇论文的Flux-GS方法用蒙特卡洛采样把高阶光照信息压缩进一个紧凑的隐空间,只保留低阶部分,再通过一个属性条件增强模块补回高频细节——这个模块不增加推理成本。此外,他们用多视角信息来指导高斯点的增删,避免生成过多冗余点。

结果是在保持画质的前提下,参数大幅减少,手机端能实时渲染。它不是你明天就能用的App,但让手机跑3D高斯渲染从不可能变成了可能。

3D高斯泼溅 · 移动端渲染 · 实时渲染 · 蒙特卡洛 · 球谐函数
阅读全文 →
前沿论文 · arXiv▲ 11

AI安全新思路:让规则像插件一样随时换

现在的AI安全审核像一张死板的黑名单——只能识别预设的违规类型,一旦规则变了就得重新训练。

现在的AI安全审核像一张死板的黑名单——只能识别预设的违规类型,一旦规则变了就得重新训练。SingGuard把规则变成运行时输入:你直接告诉它“不许提某品牌”“不能讨论某话题”,它就能按新规则逐条检查对话内容,并告诉你触发了哪条。更聪明的是,它有三种推理模式:快速判断、混合推理、慢速深思,用强化学习自动切换,在效率和准确性之间找平衡。

在56,340个样本的测试中,它比现有方案平均F1分数更高,且规则切换后准确率从64.65%提升到74.15%。这不是你明天能用的工具,但它指向一个趋势:未来的AI安全将像法律条文一样可动态更新,而非固化在模型参数里。

AI安全 · 多模态 · 动态规则 · 安全审核 · 强化学习
阅读全文 →
前沿论文 · arXiv▲ 11

AI看视频学做事,关键帧提取是瓶颈

现在的AI看视频答题已经很强,但让它看完视频教程后动手操作(比如跟着视频学用软件),它就不行了。

现在的AI看视频答题已经很强,但让它看完视频教程后动手操作(比如跟着视频学用软件),它就不行了。研究者发现,问题出在AI不会挑关键帧——它把每一帧都当重点,结果信息过载。他们设计了一个新算法TASKER,能同时考虑“任务相关”和“场景变化”,只挑出真正有用的帧。

在视频问答和GUI操作两个任务上,这个算法都让AI表现更好。虽然你明天用不上,但它点出了一个趋势:AI从“看懂”到“学会做事”,关键帧提取可能是必须跨过的坎。

视频理解 · 关键帧提取 · GUI智能体 · 多模态大模型 · 基准测试
阅读全文 →
前沿论文 · arXiv▲ 11

AI工具调用:有用还是添乱?新方法精准打分

现在的AI智能体可以调用工具(比如代码)来处理图片,但工具调用有时有用,有时多余,甚至误导。

现在的AI智能体可以调用工具(比如代码)来处理图片,但工具调用有时有用,有时多余,甚至误导。传统方法只看最终答案对不对,无法区分每个工具的具体贡献。这篇论文提出TACO方法,通过两个巧妙机制给每个工具调用单独打分:一是插入“探针”让AI自己预测“用了这个工具会怎样、不用又会怎样”,差值就是工具的真实价值;二是只把最终奖励分配给真正起作用的工具调用,避免奖励被无效调用稀释。

实验表明,AI学会了只在需要时才调用工具,准确率持续提升。它不是你明天就能直接用的功能,但展示了让AI更高效、更可信地使用工具的前沿思路。

AI智能体 · 工具调用 · 奖励分配 · 多模态 · GRPO
阅读全文 →
前沿论文 · arXiv▲ 11

AI学会了“世界模型”:不只看下一帧,而是理解世界状态

大多数AI模型只做一件事:预测下一个词、下一帧画面或下一个动作。

大多数AI模型只做一件事:预测下一个词、下一帧画面或下一个动作。Orca打破了这种割裂,它学习一个统一的“世界潜在空间”,把视频、语言、动作等不同信号压缩成同一个内部表示,然后通过轻量级的解码器去完成文本生成、图像预测、机器人动作等不同任务。它的训练方式也很有意思:一部分像潜意识一样从连续视频中捕捉密集的状态变化,另一部分像意识一样通过语言描述的事件和问答来学习稀疏但有意义的状态转移。

预训练用了12.5万小时视频和1.6亿事件标注,但训练好的主干冻结后,下游任务只需训练很小的解码器。实验表明,更强的世界潜在空间能带来更强的下游表现,甚至超过了专门为某个任务训练的模型。这不是你明天就能用的工具,但它指向了一个方向:AI不再只是模式匹配,而是开始构建对世界如何运转的通用理解。

世界模型 · 多模态 · 状态预测 · 通用AI · 预训练
阅读全文 →
🔬 前沿研究
前沿研究 · @rosinality▲ 781

新蒸馏方法OPD可合并多个教师模型

该研究将OPD设为新基准,验证了token级KL蒸馏效果足够好,可作为后续相关研究的基础起点。

OPD 可用于组合多个教师模型。它现在已经是一个基准方法。

一个需要讨论的细节是,token 级 KL 蒸馏和 top-K/全词汇表蒸馏哪个效果更好。(研究者发现 token 级 KL 的效果已经足够好。)

在 X 看原帖 ↗
78131711
前沿研究 · @teortaxesTex▲ 7.0K

这项工程优化把延迟降到几乎可以忽略

DSpark的TPOT延迟仅2.9-5.2ms,DSpark引入的延迟基本可以忽略,内置神经网络层运行极快,体积小却展现了出色的工程能力

另一个惊人的数据点是 DSpark 的 TPOT,仅为 2.9-5.2ms,这表明 DSpark 内置的神经网络层运行速度极快。

DSpark 带来的延迟基本可以忽略不计。DSpark 体量很小,却是非常出色的工程成果。

在 X 看原帖 ↗
7.0K2276
前沿研究 · @LangChain▲ 4.5K

AI代理不再事后打分,边聊边修正方向

现有大多数AI代理只在任务结束后判定成败,这次有人做了实时调整的新模型

大多数智能体都是在任务结束后才被评分。非过即败,要么解决要么放弃。

而 @GetCandidly 构建了不一样的东西:一个能在对话进行过程中读取内容,并实时引导向问题解决的模型。

完整故事:

在 X 看原帖 ↗
4.5K72510
🚀 新品发布
新品发布 · @realBigBrainAI▲ 221

转出来的AI!每生成一个字都得手摇

SqueezeLabs做了CrankGPT,这是手摇式AI,生成每个token都需要亲手摇动,能让你实实在在感受到生成过程

SqueezeLabs 打造了 CrankGPT——这是一款手摇发电 AI,能让你亲身感受到它生成的每一个 token。

来源:SqueezeLabs

在 X 看原帖 ↗
221551
新品发布 · @iScienceLuvr▲ 1.1K

正在搭全自动智能研究新平台,找反馈和伙伴

想尝试参与新AI研究工具搭建,或是给项目提建议,现在可以直接对接项目团队

我们正在搭建一个名为 Labless 的全新自动研究/智能体研究平台……

目前正在征集反馈,也在寻找潜在合作伙伴,感兴趣请联系我们!

在 X 看原帖 ↗
1.1K1101
新品发布 · @AdinaYakup▲ 652

美团放出LongCat-2.0,不用GPU训练大模型

这次训练部署都用AI ASIC超算完成,参数规模达到1.6T/48B MoE,权重很快会公布

美团放出了 LongCat-2.0🐱 的预告,权重即将发布 ✨

1.6T/48B MoE,是在 AI ASIC 超级计算集群而非 GPU 上训练和部署的 👀👀👀

在 X 看原帖 ↗
6528
新品发布 · @RoundtableSpace▲ 1.4万

AI代理能自动刷新闻写内容钩子

Agent OS 里的 Hermes Oracle 能自动收集AI新闻,自动按重要性排序,自动写内容钩子,不用碰浏览器标签就能存好生成内容

Hermes Oracle 内置在 Agent OS 中,会在 X 上扫描 AI 资讯,按重要程度排序,并自动撰写标题钩子。

所有内容都会保存到 Memory Galaxy,你的智能体就能自动把新闻转化为内容,你不需要操作任何标签页。

在 X 看原帖 ↗
1.4万207
新品发布 · @geekbb▲ 928

5.2GiB开源大模型,想在低配迷你电脑上跑

有人用Claude的思维链数据微调出了推理模型,量化后体积仅5.2 GiB,打算测试它能不能在低配迷你电脑上运行

基于 Qwen3.5-9B、在 5 亿 token 的 Claude 思维链轨迹上全参数微调的推理模型,支持 1M 上下文、原生 Function Calling 和多模态视觉,GGUF 量化后 5.2 GiB,看看能不能在我的丐版 mini 上运行。

在 X 看原帖 ↗
928114
新品发布 · @GoogleAIStudio▲ 6.4K

Google AI Studio 新增功能,分享应用可带完整对话

切换一个按钮就能分享完整的制作流程和提示词,方便展示自己完整的AI开发工作流,省去手动整理的步骤

现在你在 AI Studio 中分享应用时,可以附上完整聊天记录了。

这是展示你具体工作流程、与他人分享提示词的好方法,只需要切换一个简单的开关就能完成。

在 X 看原帖 ↗
6.4K78724
新品发布 · @omarsar0▲ 1.2万

一站式用多个开源大模型,不用再管理一堆API密钥

不用在不同平台来回切换,整理一堆API密钥就能直接使用多款最新开源权重模型,省了不少折腾的功夫

Cline这步做得很聪明。他们刚刚推出了ClinePass,让你可以轻松访问最新的开放权重模型,比如GLM 5.2、Kimi k2.7-code、Mimo 2.5、Deepseek v4 pro、Minimax M3等等。

不用同时管理一堆API密钥永远是件好事。

在 X 看原帖 ↗
1.2万34430
新品发布 · @hwchase17▲ 4.2K

检测AI智能体错误,成本只要闭源模型的1%

已经开始向早期合作方推送,现在开放抢先体验申请,能帮AI开发者省下大笔错误检测成本

我们今日开始向早期合作伙伴推出 Trace Judge 模型。

该模型旨在检测智能体轨迹中的错误,成本仅为闭源模型的百分之一。

如果你对提前访问感兴趣,请填写下方表单报名:

在 X 看原帖 ↗
4.2K5297
新品发布 · @EMostaque▲ 9.9K

不用GPU,5万颗中国ASIC跑出一流大模型

它在OpenRouter上成了最受欢迎的模型,训练全程只用国产ASIC,没用到GPU,能力达到Gemini/Opus 4.6级别

在@OpenRouter 上最热门的模型(10万亿 tokens),竟然是来自@Meituan_LongCat 的 1.6万亿参数 MoE 模型。

Meituan 就是中国的超级应用/DoorDash。

这个模型水平基本达到 Gemini / Opus 级别,总共在 5万颗中国自研 ASIC 上训练了 35万亿 tokens。

全程不需要 GPU。

在 X 看原帖 ↗
9.9K66831
新品发布 · @minchoi▲ 1.6万

多家顶流开源 coding 模型打包包月,刚好撞上闭源模型收紧权限

在前沿大模型逐步收紧访问权限的当下,有人推出打包订阅服务,一次就能用到多款可用的开放权重代码模型,按月付费即可。

Cline 刚刚发布了 ClinePass。

它将多款能力出众的开源权重编码模型打包在了一起:GLM 5.2、Kimi、DeepSeek、MiniMax、MiMo 和 Qwen。

按月固定费用即可访问。

时机把握得恰到好处,因为前沿模型现在都开始设置准入限制了。

在 X 看原帖 ↗
1.6万13419
📰 行业动态
行业动态 · @rohanpaul_ai▲ 1.8K

大公司开始用国产开源轻量模型代替顶级模型

Coinbase正在测试按任务难度分流模型,顶级模型只留做规划,日常执行用国产轻量模型足够,能省AI开支

Coinbase 首席执行官 Brian Armstrong 表示,Coinbase 正在通过其 LLM 网关试验默认使用中国开放权重模型,比如 GLM 5.2 和 Kimi 2.7,同时会根据难度路由提示词。

他明确指出,规划任务可能需要前沿模型,但执行任务时用前沿模型可能就是“大材小用”。

--- businessinsider.com/coinbase-ceo-brian-armstrong-low-ai-spend-maintain-token-usage-2026-6

在 X 看原帖 ↗
1.8K291
行业动态 · @TechCrunch▲ 8.8K

加密交易所OKX希望AI智能体互相雇佣付费

这是加密交易所OKX提出的AI发展方向

加密货币交易所 OKX 希望 AI 代理能够互相雇佣和支付报酬

在 X 看原帖 ↗
8.8K28
行业动态 · @fofrAI▲ 2.3K

Google DeepMind搬去伦敦新办公室啦

这是Google DeepMind伦敦新办公室启用的第一天

在 Google DeepMind 伦敦新办公室的第一天 🎉

在 X 看原帖 ↗
2.3K361
商业 · @coreyganim▲ 291

卖AI服务居然这么简单?搞定一个重复问题就行

比起说「我会定制AI系统」,告诉客户你能解决某一个重复出现在他们工作里的问题,更容易接到单子。

一个重复问题 = 一份 AI 服务包年合同。这是理解 AI 服务最简单的方式。

糟糕的推销话术会是:「我开发定制 AI 系统。」好得多的推销是:「我帮你修复这一个重复的工作流,并且持续维护它正常运行。」

举几个例子:
1. 兽医诊所预约提醒
问题:漏约和疫苗逾期。
搭建内容:
- 提醒工作流
- 改期跟进
- 逾期患者名单
- 员工审核过的消息模板

2. 税务申报文件催收
问题:客户只发一半文件,团队需要手动跟进。
搭建内容:
- 缺件清单
- 提醒草稿
- 状态面板
- 升级跟进名单

3. 家庭保洁报价信息收集
问题:潜在客户询价时信息不全。
搭建内容:
- 信息收集提问
- 报价准备摘要
- 跟进工作流

4. 招聘简历初筛分类
问题:招聘专员浪费时间筛选不合格候选人。
搭建内容:
- 简历分类器
- 候选人摘要
- 补全信息请求
- 面试提醒

5. 播客片段审核
问题:片段、标题和发布步骤散乱丢失。
搭建内容:
- 片段审核工作流
- 标题草稿助手
- 发布质量检查清单

一次性搭建费让工作流上线,月度服务费负责持续更新、监控和优化。

枯燥重复的工作里藏着收益。

在 X 看原帖 ↗
29121
工具 · @RoundtableSpace▲ 3.4万

开源AI现在能自动把票据PDF整理成报税数据

小企业会计贴票整理报税表的重复工作,可以直接交给这个开源工具处理,不用再买付费的财务AI工具。

开源 AI 现已可将收据、发票和 PDF 转换为符合税务要求的数据

在 X 看原帖 ↗
3.4万2468
开源 · @Techmeme▲ 685

美团开源了1.6万亿参数的LongCat-2.0大模型

这个模型是用5万颗国产芯片组成的集群训练出来的,没有放出更多细节。

美团开源了 LongCat-2.0,这是一个参数规模 1.6T 的模型。美团称该模型是在由 5 万颗国产处理器组成的集群上训练完成的,但没有披露更多细节(路透社)。

(访问 Techmeme dot com 获取链接和完整上下文!)

在 X 看原帖 ↗
6853
游戏 · @Techmeme▲ 1.0K

AI帮写代码后,半年里新发手游数量翻了一倍

到今年五月为止的半年里,iOS平台新发手游数量同比涨了118%,Android涨了73%。

AI 和氛围编程推动游戏发布量激增;ATTN Economy 数据显示,截至 5 月的六个月内共有 18.1 万款手游上线,iOS 平台同比增长 118%,Android 平台同比增长 73%(@orlandowords / 英国金融时报)

(访问 Techmeme dot com 获取链接和完整上下文!)

在 X 看原帖 ↗
1.0K1
政策 · @opinion▲ 972

两党都同意的AI投资计划,被骂成了坏主意

连立场相反的政客都达成一致的政府AI投资基金,有分析师说这根本不是个好方案。

当JD Vance和Bernie Sanders都对某件事达成共识时,这件事值得我们关注。

但@allisonschrager 认为,由政府设立基金投资AI公司是个糟糕透顶的想法。

在 X 看原帖 ↗
9721
研究 · @stochasticchasm▲ 444

原来InstructGPT训练时用了这么多模型

训练1750亿参数的GPT-3做人类指令对齐时,用了60亿参数的奖励模型来做PPO强化学习。

我今天才知道,InstructGPT 在对完整 175B 的 GPT-3 做 PPO 时,用的是 6B 的奖励模型和价值函数。

在 X 看原帖 ↗
4441152
研究 · @rosinality▲ 314

现有学习率缩放规律可能算错最优值了

因为名义学习率和实际有效学习率之间存在缺口,原来的规律会低估真正合适的学习率。

由于学习率与有效学习率之间存在差距,学习率缩放定律可能会低估最优学习率。

在 X 看原帖 ↗
31444
行业动态 · Hacker News▲ 32

跨Claude和ChatGPT的统一记忆存储协议发布

不用再给不同AI重复输入个人记忆信息,切换工具不用重复整理数据

行业动态 · @iScienceLuvr▲ 1.1K

外卖平台训练大模型?参数规模达到1.6T

训练用的是国产ASIC芯片,训练数据量35T tokens,性能逼近前沿大模型水平

「中国版 DoorDash」发布了一个在中文 ASIC 上训练,训练数据量为 35T tokens 的 1.6T 参数模型,性能接近前沿水平。

在 X 看原帖 ↗
1.1K51
大模型 · @basedjensen▲ 40

国产外卖平台训出1.6T大模型,接近顶级水平

模型用35Ttoken训练,完全跑在国产ASIC芯片上。这给做模型训练的团队提供了国产化落地的参考

“中国DoorDash”发布了一个在国产ASIC上训练、用了35T token训练的1.6T参数模型,性能接近前沿水平。这是Darios和saftiest / yudoskov的噩梦。

在 X 看原帖 ↗
40
工具 · @tmaiaroto▲ 5

AI代理编辑工具更新,稳定性和灵活性大幅提升

开发者迭代了一个不大但关键的控制功能,现在工具本身变得更复杂也更不容易出错。

又搞定了一个功能……虽然是小功能,但属于重要的控制项。我们对这个代理的编辑工具做了大幅改进。它现在变得极其精密、容错性极强。

在 X 看原帖 ↗
5
行业动态 · Hacker News▲ 31

别把错误日志直接粘贴进 Claude Code

这条提醒获得大量讨论,直接粘贴错误日志给 Claude Code 会带来风险,碰到相关操作需要多注意

社区讨论:多数开发者反对将错误直接交给AI代理处理的工作模式,有人指出很难判断AI生成代码的正确性,自己写正确代码比给AI改错误轻松,给AI代理直接接入生产数据库权限会带来严重安全风险,还调侃部分开发者完全依赖AI、自己不理解逻辑的工作方式不靠谱,也有开发者部分认同标题观点,认为自己遇到解决不了的错误才人工介入,直接粘贴错误只是无效拖延,仅少数人认可让AI自助诊断解决错误。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · @teortaxesTex▲ 1.1K

美团预训练大模型,用了五万多颗AI ASIC

业内人士确认这批芯片不是Ascend 950DT SuperPOD,没人说清美团到底用了什么硬件训练这个大模型。

哇哦,好了,来了。Owl Alpha。它是V4-scale模型,更新了DSA,加入了N-gram Embeddings,评测结果不错,「预训练在超过5万块AI ASIC……超算节点上」来自——我看一下笔记——美团。对哦。

这些显然不是Ascend 950DT SuperPOD(每个ASIC显存80GB)。他们到底用的是什么?!

在 X 看原帖 ↗
1.1K1145
生成式视频 · @RoundtableSpace▲ 3.9K

你听说吗?字节跳动能一键生成4K30秒短片了

推出的Seedance 2.0 & 2.5支持50种全模态参考输入,还支持3D白模。做短视频剪辑的人可以试试新工作流

ByteDance 刚刚推出了 Seedance 2.0 和 2.5,可以一次性生成 30 秒的 4K 短片。

支持 50 种全模态参考输入,支持 3D 白模。

他们不只是在做视频模型。他们正在围绕它搭建一整个 IP 业务。

在 X 看原帖 ↗
3.9K181
大模型 · @xiaohu▲ 2.4万

马斯克的Grok 4.5现在已经内部测性能了

基于1.5T V9基础模型,补充训练加入了Cursor数据,已经在SpaceX和Tesla测试,早期评估性能接近甚至超过Opus

马斯克说他们的Grok 4.5,基于他们的的 1.5T V9 基础模型 并在补充训练中加入了 Cursor 数据 现已在 SpaceX 和 Tesla 进入早前测试阶段 早期评估显示性能接近 Opus,甚至可能已超过Opus

在 X 看原帖 ↗
2.4万3434
工具 · @llama_index▲ 4.0K

LlamaIndex推出了同时支持两种搜索的检索工具

既有语义搜索,也有服务端全文搜索,适配需要从大量文档里找信息的AI智能体,帮智能体解决单一搜索不够用的问题

阅读全文 →
4.0K53436
AI智能体 · @hwchase17▲ 3.9K

AI智能体现在支持程序自动创建子智能体了

动态子智能体功能可以按需生成子任务代理,还能在拆分任务时保留已有上下文的缓存命中,已经整理出6种不同的应用场景

deepagents 推出动态子代理功能!它允许你通过编程快速启动子代理。我们为该功能列举了 6 种不同的用例。

这是一个围绕模型路由和子代理委派的巧妙设计,同时能保证所有代理累积的上下文都能命中缓存。

这个设计非常合理:你肯定也希望所有子代理都能使用缓存中已累积的上下文。

在 X 看原帖 ↗
3.9K33218
量子计算 · @tbpn▲ 1.6K

有CEO说量子计算能把AI训练提速好几个量级

Sygaldry Technologies联合创始人兼CEO说量子技术可以给AI训练带来大幅速度提升,目前相关技术还在发展中

Sygaldry Technologies 联合创始人兼首席执行官 @chadrigetti 表示,量子计算可以将 AI 训练速度提升「好几个数量级」:

在 X 看原帖 ↗
1.6K5
开源 · @haider1▲ 4.9K

有人吐槽Anthropic是对开源最不友好的公司

称不到半年就会有中国大模型能以更低成本匹配Mythos的性能,接下来行业会迎来新的成本压力

在开源这件事上,anthropic 是最邪恶的公司。

我们很可能用不了六个月,就会出现一款能力能匹敌 mythos,但价格低得多的中国模型。

所以下一波压力将不只来自更聪明的模型——还来自普通人确实用得起的强力模型。

在 X 看原帖 ↗
4.9K6943
行业动态 · Hacker News▲ 142

开源自主编码模型,居然能自己迭代优化

做编码相关工作的人,可以多一条免费自主迭代的开源工具路径

社区讨论:多数试用者认为这个通义千问微调的开源编码模型表现不错,能给出有创造性的编码方案,没人要求9-35B参数的模型一键生成完整应用。不少人质疑它只是堆基准分的换皮千问,有人实际测试发现它 bug 查找能力差,无工具对话时幻觉严重,长会话工具调用表现拉胯,甚至连声称的31B稠密模型都找不到权重和基准测试数据,还有开发者提到9B稠密版需要单张80GB显存GPU,普通用户根本用不了。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 52

能自己搭框架的自主编码大模型发布了

这是一个针对自主编码任务设计的自脚手架大语言模型,可以省掉人工搭建框架的步骤

行业动态 · Hacker News▲ 563

通义千问3.6 27B被评为本地开发最优选择

做本地大模型开发一直需要平衡性能和硬件需求,这个模型被开发者认为刚好卡在最合适的点上。

社区讨论:多数开发者质疑该评测的门槛过高,128GB内存的MacBook Pro起售价达6699美元,高配版本更是近万美元,远超出普通开发者的硬件配置水平,这笔费用足够购买大量云服务API credits甚至一辆新车。有人指出在该笔记本上本地跑大模型会发烫噪音大,无法日常coding。也有普通配置用户提问,希望能推出适配中低端硬件、小参数量能良好支持工具调用的量化版本。

还有人提到Gemma4 31B体验也很好,只是比较被低估。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 51

Anthropic CEO称开源AI正在变得越来越危险

这是2023年的旧讨论被重新挖出来,这一观点持续影响开源AI发展的监管方向

行业动态 · Hacker News▲ 45

DeepSeek V4 调整了峰谷定价,大模型降价了?

大模型API服务商调整定价,使用成本会随之变化,直接影响每次调用API的开销

💡 深度观点
深度观点 · @zephyr_z9▲ 7.7K

中国AI基础设施压力降了,新项目要爆火

The Whale 已经降低了中国AI基础设施的算力压力,DSpark 接下来会迎来极高的使用率。

DSpark 将会获得疯狂的 adoption。The Whale 降低了中国 AI 基础设施的计算压力。

在 X 看原帖 ↗
7.7K236
深度观点 · @RhysSullivan▲ 1.0K

用AI投了1150份简历,只收到1个回复

大批量海投简历,即使借助AI,也很难得到用人单位的回应,不妨换个思路找工作

> 用 AI 投递了 1150 份求职申请
>
> 只收到了一封回复
>
> 震惊。png

你觉得还能有什么别的结果?

在 X 看原帖 ↗
1.0K152
深度观点 · @icanvardar▲ 224

找工作不需要LinkedIn?个人网站更管用

LinkedIn现在已经变成平庸简历的展示场,放了项目和链接的个人网站,比精致优化的平台Profile更能说明能力。

你不需要 LinkedIn,大多数人没有它反而更好。

LinkedIn 早就变成了平庸之人的高光宣传片。

一个放着你的项目和链接的简单个人网站,比任何精心打磨的个人资料都更能说明你是怎样的人。

在 X 看原帖 ↗
22481
深度观点 · @togethercompute▲ 1.2K

开源大模型变强了,现在战场换到这边来了

更多推理工作流入局竞争后,真正的比拼变成速度、成本、稳定性和控制权

随着开源模型能力持续增强,越来越多工作负载转移到竞争激烈的推理市场。

这会推动真正的竞争转向速度、成本、可靠性与可控性。

Together AI 就是让开源模型成为生产级基础设施的平台。

在 X 看原帖 ↗
1.2K162
深度观点 · @peterrhague▲ 407

科技博主骂太空数据中心全是蠢主意,急了还骂观众

有人做视频抨击太空数据中心整个概念,被找出漏洞后,骂提意见的人都是马斯克粉丝,还情绪崩溃了

“Real engineering”做了一段粗制滥造的视频,攻击太空数据中心这个概念——不仅攻击他们提到的白皮书,还直接把整个概念称为愚蠢——现在这个创作者情绪崩溃了,还把所有找出他视频漏洞的人都叫做“Elon 舔狗”。

在 X 看原帖 ↗
407111
⚡ 实战经验
实战经验 · @snowmaker▲ 673

Claude用人类代码训练我,我也在训练它

Claude 经过人类编码会话的强化学习,用Claude Code越久,越会发现自己也在配合它调整指令方式,这是人类和AI共同进化的过程

Claude 是通过人类编码会话做强化学习训练出来的。但我用 Claude Code 用得越多,就越意识到我正在被 Claude Code 做强化学习——我正在学习给它发指令的最优方式,学习哪些内容它容易遗忘或者误解。

这感觉就是一种人类/AI共同进化。

在 X 看原帖 ↗
673193
实战经验 · @hwchase17▲ 6.9K

把LangGraph智能体转成语音智能体,现在超简单

现成的教程已经放出来了,想用语音AI的可以直接跟着操作

将 LangGraph 智能体转化成语音智能体从未如此简单!这里有一篇很棒的教程讲解了具体实现方法,教程使用了 @pipecat_ai

在 X 看原帖 ↗
6.9K54029
📌 其他
工具产品 · @NFTCPS▲ 8.6K

用最土办法实现了多个AI一起协作干活

不用复杂后台,只靠shell命令和SQLite数据库传话,输入一句/squad就能拉起一队AI分工完成编码任务

多个 AI agent 一起干活这事,终于有人用最土的办法做出来了。

squad,一个 Rust 写的命令行工具,让 Claude Code、Gemini CLI、Codex、OpenCode 这几个 CLI agent 直接坐一桌协作。

它的思路特别朴素,没有后台守护进程,全靠 shell 命令加一个 SQLite 数据库传话,每条命令都是一锤子买卖。

玩法也简单,三个终端各开一个:
1️⃣ manager 负责拆任务、派活
2️⃣ worker 负责接活、干活、回报
3️⃣ inspector 在旁边盯着

一句 /squad 就能拉起一整队 AI 帮你打工,多开同角色还会自动编号,worker、worker-2 排好队。

🔗

在 X 看原帖 ↗
8.6K105356
商业 · @minchoi▲ 1.7万

马斯克要求优化Grok中各细小AI性能瓶颈

社交媒体曝光马斯克要求优化Grok的AI瓶颈

Elon 指着每一个他希望在 Grok 中优化的微小 AI 瓶颈。

在 X 看原帖 ↗
1.7万4398
硬件 · @bridgemindai▲ 552

M5 Max MacBook Pro对比NVIDIA DGX Spark本地AI运行

博主将对比两款设备运行本地AI模型的实际表现,结果明日公布

M5 Max MacBook Pro 对决 NVIDIA DGX Spark。今天我要测试出哪一台才更适合运行本地 AI 模型。

一边是搭载统一内存的 Apple silicon。另一边是为 AI 打造的专用 NVIDIA 硬件。

这是对本地推理未来的两种完全不同的路线押注。测试结果将于明天公布。

在 X 看原帖 ↗
5521102
投资 · @mnmn94253156337▲ 3.0K

分享普通人研究美股的标准化流程工具

介绍一套梳理美股研究维度的标准化工具流程

普通人研究美股,最容易卡在第一步:不知道该看什么 看 NVDA、TSLA、AAPL,不是只看财报 还要看估值、指引、同行、期权、分析师预期、新闻情绪 这个 Finance Skill,刚好把这些东西拆成了一套检查流程 财报前,看市场预期和历史 beat/miss。财报后,看 EPS、利润率、指引和价格反应。估值上,跑 DCF、相对估值和牛熊情景。

市场上,看同行相关性、期权收益图、Reddit / X / 新闻情绪。它不是喊单工具。更像是让 Claude Code 先帮你把一只股票该查的东西查完。

项目: 仅作工具分享,不构成投资建议。

在 X 看原帖 ↗
3.0K27415
AI编码 · @Li888Real▲ 9.5K

AI编码开始改变开发习惯 项目瞄准AI原生Web3开发

AI可快速生成常规应用代码,但Web3链上开发仍存诸多阻碍,Canopy推出AI原生基础设施降低门槛

AI工具 · @omarsar0▲ 3.1K

开发者Omar分享实测有效的人物搜索工具CLODOAI

多数同类工具提供静态过时信息,这款工具会实时检索网络并分析当前信息

终于有一款真正能用的人物搜索工具了。

目前大多数人物搜索工具,只会给用户提供一份静态过时的信息列表。

@CLODOAI不同,它会检索实时网络,读取相关信息信号,给出目标人物当前的具体相关分析。

Omar Sar 在𝕏上点赞了该工具,同时@了开发相关的@sixtensor和@vikchuppala。

在 X 看原帖 ↗
3.1K11012
AI开发 · @HamelHusain▲ 449

Cursor AI推出远程开发+iOS新功能 需手动开启

开发者Hamel Husain分享开启步骤,并给出了对该功能的第一使用体验

想要体验Cursor AI推出的全新远程开发+iOS功能,需要在两处手动开启设置。该功能的入口隐藏在文档中,Hamel Husain本人也摸索了较长时间。

第一步,进入网页端的个人控制台开启功能,开启入口链接为

第二步,打开Cursor客户端,进入代理视图,选择本地+远程模式即可。

Hamel Husain给出了自己的第一使用感受。该功能的完成度不如OpenAI Codex的远程功能,它没有整理显示不同进程分别运行在哪台机器上。

用户只能点击进入具体会话,才能查看进程的运行位置信息。

在 X 看原帖 ↗
4492
产品开发 · @minchoi▲ 8.3K

Claude Code创作者分享全新原生AI产品团队图谱

Claude Code创作者Boris分享全新原生AI产品团队图谱

这真的就是全新的AI原生产品团队图谱。

它出自Claude Code的创造者Boris之手。

存下这张图。

在 X 看原帖 ↗
8.3K31843
界面设计 · @levelsio▲ 6.4万

开发者levelsio指出界面正转向即时生成临时界面

开发者levelsio分享对界面发展趋势的判断

💯 这再次表明,我们正在朝着万物皆可动态生成的临时界面方向发展。

在 X 看原帖 ↗
6.4万11404191
访谈 · @altryne▲ 5.4K

AI Engineer创始人@swyx接受播客专访透露重大里程碑

@altryne发布对@swyx的走廊 candid 专访,提及明日重大里程碑

一段在走廊对本人的坦诚访谈——@swyx 可以说就是一期迷你播客,他和我聊了明天即将到来的一个重大里程碑,还有他对@aiDotEngineer感到意外的一些地方,以及……几件私人话题!

0:00 — Daily Context AIE 通讯
0:47 — @aiDotEngineer 增长
1:23 — 工坊路线与技能赛道
2:28 — Jam 角落与音乐
3:52 — AI Engineer 文章周年纪念
4:26 — 强度、诚信、自觉、疯狂
4:52 — AGI 药丸与疯狂福利
5:56 — 直播与 YouTube 行动号召

希望你能喜欢这场和缔造了这一切的男人的「幕后」对谈。

一起参与聊天的还有@kentcdodds @liadyosef @WolframRvnwlf @RayFernando1337 @Gangadhar_P。走廊访谈永远独一档!

在 X 看原帖 ↗
5.4K83010
开发 · @dejavucoder▲ 678

开发者非专业领域参赛获第十二名 推理 latency达1.8ms

开发者凭借Triton在AI优化竞赛获第十二名,后续将分享经验

最终以1.8ms拿到第12名。这不是我的专业领域,能做到这个程度真的很夸张。(感谢codex和modal)。我全程只用了triton。

如果大家感兴趣,我会写一篇博客介绍我这套结合HITL的极简自动研究工具链。现在该去看看头部参赛作品学习一下了。

我和我的agents需要在编写底层库代码上做得更好。我为了获得更多控制权,适配b200特定指令,尝试过用gluon/cuda写内核,但都失败了——写出来的比我用triton实现的还要慢。所以看来我得好好学一下这东西了。

在 X 看原帖 ↗
67810
大模型 · @emollick▲ 10.7万

研究者对比分析开源闭源大模型复杂任务表现

基于新测评数据绘制前沿曲线,发现开源模型与闭源存在明显差距

我从@ArtificialAnlys那里拿到了最新的 AA-Briefcase 分数(这个测评本质上是让 AI 完成复杂度很高、耗时数周的咨询项目),然后绘制出了闭源模型和开源模型的性能前沿曲线:

1)意外收获:性能提升非常迅速!
2)开源权重模型和闭源模型之间的差距非常明显。

在 X 看原帖 ↗
10.7万30380155

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top

🛠 使用技巧

把 AI 用进工作生活的实操方法 · 实测接地 · 不卖课

把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部