社区讨论:多数评论者不认可项目的专利申请和宣传,有人指出项目做的插入删除替换等精准编辑,50年前的ed命令集就已经实现,不是可专利的新发明,也不是第一个把细粒度编辑应用到大语言模型工具的方案。有人质疑实验对照设置不合理,应该用Claude Code Opus而非GitHub Copilot上的Haiku/Sonnet 4.5,也有人提到这不是第一个用坐标编辑的方案,哈希锚点编辑很早就出现了。
AI主权、开源模型与Alex Karp:企业如何保护数据护城河
AI主权、开源模型与Alex Karp
前沿AI实验室不只是出售智能,它们正在吸收你的护城河。以下是企业为何醒悟,以及实际可选方案。
0 — 概要
🔥 信号雷达
𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌
行业动态 · Hacker News▲ 33
给AI编程机器人做了精准编辑工具
从事AI代码开发的人,可以用上新的精准编辑工具,不用再处理模糊的代码修改结果
给AI编程机器人做了精准编辑工具
从事AI代码开发的人,可以用上新的精准编辑工具,不用再处理模糊的代码修改结果
实战经验 · @mattshumer_▲ 2.8万
这款AI workspace能让多个智能体一起干活
有人写这份指南的时候全程用它完成,说它是效率超强的Fable加速器
这款AI workspace能让多个智能体一起干活
有人写这份指南的时候全程用它完成,说它是效率超强的Fable加速器
顺便说一句,这份指南是用Fable accelerant编写的,它的能力强得离谱。
我在指南里分享了更多细节,但简单来说它是一个以智能体优先、能力超强的工作区,支持多个智能体聊天、协作、向你更新进度等等。
行业动态 · Hacker News▲ 118
GPT-5.5 Codex 性能下降,原因可能在这里
有讨论提出,推理token聚类机制,可能是GPT-5.5 Codex性能下降的诱因。
GPT-5.5 Codex 性能下降,原因可能在这里
有讨论提出,推理token聚类机制,可能是GPT-5.5 Codex性能下降的诱因。
社区讨论:多数高频用户证实GPT-5.5 Codex代码生成质量确实明显下降,会间歇性输出非常愚蠢的实现,早年优秀的编码表现已经不复存在。技术用户观察到,该模型推理输出 token 会呈现在间距518左右固定值聚类的现象,卡到阈值的推理对应复杂任务出错,这个问题在旧版本几乎不存在,推测是OpenAI为了降低算力成本、优化吞吐量做批处理优化导致的。已有多名用户切换到Claude或其他模型。
实战经验 · @RoundtableSpace▲ 2.3万
把Fable 5改成重型推理任务协调器
两步就能把Fable 5改成协调重型推理的工具,跟着操作就能用,不用额外重新搭建环境
把Fable 5改成重型推理任务协调器
两步就能把Fable 5改成协调重型推理的工具,跟着操作就能用,不用额外重新搭建环境
你可以把 Fable 5 变成一个负责深度推理的编排器。怎么做呢?
1. 在 claude plugin marketplace 添加 DannyMac180/fable-advisor 并安装 claude plugin fable-advisor
2. 输入 /model fable
实战经验 · @omarsar0▲ 4.6K
多模态提示是AI智能体交互的未来方向
作者公开了自己给编码智能体做多模态提示的实现过程,还附了视频演示,可以跟着动手实践
多模态提示是AI智能体交互的未来方向
作者公开了自己给编码智能体做多模态提示的实现过程,还附了视频演示,可以跟着动手实践
实战经验 · @RoundtableSpace▲ 9.5K
睡觉的时候,AI自动帮你补笔记里的知识缺口
有人给自己的Obsidian加Claude工作流,加入了自动学习功能,可以在睡觉时扫描知识缺口并自动完成调研。
睡觉的时候,AI自动帮你补笔记里的知识缺口
有人给自己的Obsidian加Claude工作流,加入了自动学习功能,可以在睡觉时扫描知识缺口并自动完成调研。
行业动态 · @petergyang▲ 1.9K
OpenAI产品经理日常用Codex干活,居然这么玩
分享OpenAI内部产品经理用Codex完成工作的实际方式,想完整了解可以明天收看这期节目
OpenAI产品经理日常用Codex干活,居然这么玩
分享OpenAI内部产品经理用Codex完成工作的实际方式,想完整了解可以明天收看这期节目
我明天播出的这期节目将会带大家深入了解,OpenAI 的产品经理是如何在产品工作中使用 Codex 的。
Codex 的产品经理 Rohan 将演示如何做到以下操作:
→ 使用 Image Gen 快速探索设计方案
→ 从 Slack 触发 Codex 自动化流程
→ 使用一个 Codex 线程管理其他线程
📌 点击订阅,明天就能收看完整节目:
新品发布 · @RoundtableSpace▲ 9.6K
提示词工程被新方法取代了?有人搞出循环工程
不用手动给每个任务写提示词,直接设计可自动运行的AI工作流,项目已包含多种可复用的工作循环
提示词工程被新方法取代了?有人搞出循环工程
不用手动给每个任务写提示词,直接设计可自动运行的AI工作流,项目已包含多种可复用的工作循环
LOOP ENGINEERING 正在取代 PROMPT ENGINEERING。
设计可自动运行的 AI 工作流,无需手动为每一项任务写提示词。
它包含可复用的循环,适用于 CI、PR、依赖项和 issue 管理。
仓库地址:
工具产品 · @Rainmaker1973▲ 1.5万
神经网络和机器学习,现在都可以可视化了
可以在这里查看神经网络和机器学习的可视化
神经网络和机器学习,现在都可以可视化了
可以在这里查看神经网络和机器学习的可视化
智能体 · @omarsar0▲ 8.8K
研究人员提出面向智能体的多模态提示交互方法
多模态提示可提升智能体任务效率,适配多领域工作场景
研究人员提出面向智能体的多模态提示交互方法
多模态提示可提升智能体任务效率,适配多领域工作场景
前沿论文 · arXiv▲ 75
把模糊需求编译成AI小程序,本地跑还省内存
你让AI做一件事——比如从日志里挑出重要的行、把乱掉的JSON修好——通常得每次把需求写一遍发给大模型,慢、贵、还得联网。
把模糊需求编译成AI小程序,本地跑还省内存
你让AI做一件事——比如从日志里挑出重要的行、把乱掉的JSON修好——通常得每次把需求写一遍发给大模型,慢、贵、还得联网。
你让AI做一件事——比如从日志里挑出重要的行、把乱掉的JSON修好——通常得每次把需求写一遍发给大模型,慢、贵、还得联网。这篇把过程反过来:先拿一个4B参数的编译器,把你的自然语言需求“编译”成一个极小的AI程序(参数适配器),然后交给一个0.6B的轻量解释器去执行。结果:这个0.6B模型跑出来的效果,跟直接问32B的大模型差不多,但推理内存只用五十分之一,在MacBook M3上每秒能跑30个token,而且完全离线。
它不是你明天就能用的工具,但思路很前沿:把大模型从“每问一次算一次”变成“一次编译、反复执行”的工具制造者。
前沿论文 · arXiv▲ 45
给AI装个「限时记忆」,决策反而更聪明
大模型做长线决策时,通常会把所有历史对话、工具调用一股脑塞进提示词,结果记忆越堆越乱,哪个环节起作用根本分不清。
给AI装个「限时记忆」,决策反而更聪明
大模型做长线决策时,通常会把所有历史对话、工具调用一股脑塞进提示词,结果记忆越堆越乱,哪个环节起作用根本分不清。
大模型做长线决策时,通常会把所有历史对话、工具调用一股脑塞进提示词,结果记忆越堆越乱,哪个环节起作用根本分不清。这篇论文换了个思路:每次决策只从记忆库里精准调取当前需要的信息,不保留原始对话记录。在《杀戮尖塔2》这个需要几百步战术和战略决策的卡牌游戏里,这种「限时记忆」让AI胜率从0%提到60%(虽然样本小,但方向明显)。
它不是你明天能用上的,但给了一个新视角:AI的记忆不是越多越好,而是越干净越好。
实战经验 · @nummanali▲ 281
调整提示词框架后,Fable 5提示词量减了80%
有人说Fable 5过于急切,调整提示词框架后,大部分提示词用量减少了80%,核心秘密来自提示词指南里的原则级指令。
调整提示词框架后,Fable 5提示词量减了80%
有人说Fable 5过于急切,调整提示词框架后,大部分提示词用量减少了80%,核心秘密来自提示词指南里的原则级指令。
有人说 Fable 5 太急切,但问题的核心其实在于框架构建。
感谢 Elliot 提及了提示词指引,那就是秘诀所在。
长话短说:大多数提示词的体量减少了 80%。我将它等同于原则层面的指令。
新品发布 · @HBCoop_▲ 651
Midjourney更到v8.2了?新模型来了
有人放出了Midjourney v8.2最新模型的相关内容
Midjourney更到v8.2了?新模型来了
有人放出了Midjourney v8.2最新模型的相关内容
工具产品 · @lumpenspace▲ 160
未来半年编程语言该满足这三个新要求了
作者正在更新NetLogo的MathPets ABM系统,已经做到了他能实现的最优帕累托效果。
未来半年编程语言该满足这三个新要求了
作者正在更新NetLogo的MathPets ABM系统,已经做到了他能实现的最优帕累托效果。
未来六个月的编程语言应当满足:
- tokens 高效
- 易于被 LLMs 编写
- 易于人类阅读。
MathPets ABM 系统是我正在开发的 NetLogo 更新版本,目前我已经把它做到了我能做到的最优帕累托效果(森林火灾/渗流模拟):
本地部署 · @jun_song▲ 286
本地AI现在跑起来速度居然这么快?
270亿参数的密集模型,现在本地就能跑到每秒生成75个token,发展速度比很多人预想的快得多
本地AI现在跑起来速度居然这么快?
270亿参数的密集模型,现在本地就能跑到每秒生成75个token,发展速度比很多人预想的快得多
内容监管 · @liyue_ai▲ 346
现在发AI生成内容到小红书会被警告
有人在小红书发布AI生成作品后,收到了平台的违规警告。平台对AI内容的监管已经落地到普通创作者
现在发AI生成内容到小红书会被警告
有人在小红书发布AI生成作品后,收到了平台的违规警告。平台对AI内容的监管已经落地到普通创作者
行业动态 · @thursdai_pod▲ 115
OpenAI首款自研芯片9个月就流片?有人提出质疑
OpenAI自研芯片代号为Jalapeño,有人对这个设计到流片仅9个月的时间表表示怀疑,达到当前规模确实需要自研芯片
OpenAI首款自研芯片9个月就流片?有人提出质疑
OpenAI自研芯片代号为Jalapeño,有人对这个设计到流片仅9个月的时间表表示怀疑,达到当前规模确实需要自研芯片
从设计到流片只用了9个月……真的假的?OpenAI 刚刚公布了他们首款自研 AI 芯片,代号为 Jalapeño。
@nisten 对这个时间线抱有强烈质疑,并做了详细分析。以 OpenAI 当前的规模,他们现在确实需要自研硅芯片了。👀
实战经验 · @jun_song▲ 561
桌面端跑出30tok/s,也能用上顶级AI
实测达到每秒30token的可用速度,不用依赖云端大模型服务,普通人也能在自己电脑上用上前沿水平的AI
桌面端跑出30tok/s,也能用上顶级AI
实测达到每秒30token的可用速度,不用依赖云端大模型服务,普通人也能在自己电脑上用上前沿水平的AI
工作方式 · @Michaelzsguo▲ 19
你听说吗,现在大家用AI其实都是在做AI的活
很多人以为自己在指挥AI干活,实际上做的是本该AI智能代理协调的工作,这是当下AI协作模式正在发生的转变。
你听说吗,现在大家用AI其实都是在做AI的活
很多人以为自己在指挥AI干活,实际上做的是本该AI智能代理协调的工作,这是当下AI协作模式正在发生的转变。
开源工具 · @iotcoi▲ 103
NVIDIA开源了能帮不同大模型互译的转发工具
这个叫Switchyard的工具,能在OpenAI和Anthropic的接口之间互转格式,还支持函数调用,改按需求智能路由请求了。
NVIDIA开源了能帮不同大模型互译的转发工具
这个叫Switchyard的工具,能在OpenAI和Anthropic的接口之间互转格式,还支持函数调用,改按需求智能路由请求了。
NVIDIA 开源了 Switchyard:这是一个多兼容 LLM 代理,可以在 OpenAI 和 Anthropic 的格式之间互转,就像懂「函数调用」的联合国翻译。
Token 堆料时代已经结束。它支持智能路由、强类型定义、单请求统计。你的智能代理无需签证就能跨厂商边境运行。
AI绘图 · @SD_Tutorial▲ 34
出了新的AI绘图深度控制扩展工具
这个LoRA模型用Depth-Anything-V2提取深度图,生成新图时能保留原图像的3D结构和构图,内容随便换。
出了新的AI绘图深度控制扩展工具
这个LoRA模型用Depth-Anything-V2提取深度图,生成新图时能保留原图像的3D结构和构图,内容随便换。
Krea-2☺️ Depth ControlNet LoRA
用于深度条件生成。
它先用 Depth-Anything-V2 提取深度图,再生成一张保留原有 3D 结构和构图的新图片,内容和风格可以完全按你的要求生成。👇
AI部署 · @aijoey▲ 106
有人摸出了Mac连DGX Spark跑推理的方法
这个方案专门给DGX Spark用户准备,用Mac当控制端,通过Hermes Desktop连接已经跑在DGX Spark上的推理服务。
有人摸出了Mac连DGX Spark跑推理的方法
这个方案专门给DGX Spark用户准备,用Mac当控制端,通过Hermes Desktop连接已经跑在DGX Spark上的推理服务。
这篇内容专门针对同时将 Mac 用作控制平面的 DGX Spark 用户。
解决方案:将你 Mac 上的 Hermes Desktop 连接到 DGX Spark 上已经在运行的推理服务器。
机器人 · @ErenChenAI▲ 47
国内机器人守门AI现在效果已经接近顶级门将了
Booster自研的守门员算法,让机器人扑球的水平,感觉接近顶级门将库尔图瓦的水平。
国内机器人守门AI现在效果已经接近顶级门将了
Booster自研的守门员算法,让机器人扑球的水平,感觉接近顶级门将库尔图瓦的水平。
大模型 · @micheltamanda▲ 12
本地跑AI的玩家都在说qwen3.6-27b很好用
有人在本地AI爱好者圈子里提问,大家一起聊聊这个模型到底好在哪里,很多人分享了自己的使用感受。
本地跑AI的玩家都在说qwen3.6-27b很好用
有人在本地AI爱好者圈子里提问,大家一起聊聊这个模型到底好在哪里,很多人分享了自己的使用感受。
实战经验 · @teortaxesTex▲ 806
这款叫Fabulism的AI agent,用着比Opus舒服多了
它为有状态智能体设计,会通过上下文学习进步,还能记录使用者完成的进度,比Opus的卡顿问题好用很多
这款叫Fabulism的AI agent,用着比Opus舒服多了
它为有状态智能体设计,会通过上下文学习进步,还能记录使用者完成的进度,比Opus的卡顿问题好用很多
你觉得这个Fabulism怎么样?我越来越喜欢它了,比Opus那套糟糕的反向对抗摩擦好多了。
这是一个为有状态智能体打造的AI,能通过上下文学习持续进化,而这恰恰是人类极少能做到的事。
Fable会持续记录人类获得的分数。
行业动态 · @togethercompute▲ 842
企业都在抢着用能自己掌控数据的开源模型
开源模型能让你完全掌控数据、自定义修改、拥有数据主权,现在不少企业正快速转向这类方案。
企业都在抢着用能自己掌控数据的开源模型
开源模型能让你完全掌控数据、自定义修改、拥有数据主权,现在不少企业正快速转向这类方案。
开源模型让你可以对自己的数据获得完全控制权、定制能力和所有权。
很多公司正在快速推进这件事。
@vipulved 在 @CNBC 与 @dee_bosa 一起参与了相关讨论。
深度观点 · @cgtwts▲ 530
原来用AI越说越错?这和以前用的不一样
Fable 5一天能完成过去团队一个月的工作,它不需要太多人工指引,过度拆解解释任务反而会让结果变差。
原来用AI越说越错?这和以前用的不一样
Fable 5一天能完成过去团队一个月的工作,它不需要太多人工指引,过度拆解解释任务反而会让结果变差。
Claude Code 的创作者 Boris Cherny 表示:“Fable 5 能在一天内完成你的团队过去需要花一个月才能做完的工作。大多数人都还是会用错它。”
他在 12 分钟的分享里解释了,为什么 Fable 5 相比前代模型需要少得多的引导,以及为什么过度解释每项任务只会让结果更糟。
软件工程 · @thenanyu▲ 414
多数开发者从未认真对待过代码评审工作
业内人士指出代码评审需实际运行验证把控质量
多数开发者从未认真对待过代码评审工作
业内人士指出代码评审需实际运行验证把控质量
我最近非常明确地意识到,过去几乎没人真正认真对待过代码审查。
认真指的是你会在开发环境里运行这段代码,确认它实现了既定目标,逐行阅读并且认可代码写法大体符合你自己的编码习惯。
发现bug的最佳方式是使用产品,尝试能不能把它搞崩。只靠读代码推演,你找不出大多数bug。
代码审查本身是针对架构和API设计做检查……目的是控制技术债务的增长。
AI研究 · @rohanpaul_ai▲ 1.4K
卡内基梅隆大学发布Gym-Anything助力AI训练
CMU研究提出可将任意软件转化为AI智能体训练环境
卡内基梅隆大学发布Gym-Anything助力AI训练
CMU研究提出可将任意软件转化为AI智能体训练环境
前沿论文 · arXiv▲ 43
AI自主改进策略有了标准化考场
AI自主改进策略的能力有了标准化测试:GPT-5.5在16个环境中均排前二,但成功的关键不仅是赢任务,更在于在有限反馈下发现合适机制并迭代优化。
AI自主改进策略有了标准化考场
AI自主改进策略的能力有了标准化测试:GPT-5.5在16个环境中均排前二,但成功的关键不仅是赢任务,更在于在有限反馈下发现合适机制并迭代优化。
前沿论文 · arXiv▲ 38
AI 评测的“满分”可能是假的:新框架专抓“眼瞎”时刻
现在的 AI 视觉评测有个怪现象:模型在标准测试里拿高分,但放到真实场景中却经常犯低级错误——比如把“红绿灯”说成“路灯”。
AI 评测的“满分”可能是假的:新框架专抓“眼瞎”时刻
现在的 AI 视觉评测有个怪现象:模型在标准测试里拿高分,但放到真实场景中却经常犯低级错误——比如把“红绿灯”说成“路灯”。
现在的 AI 视觉评测有个怪现象:模型在标准测试里拿高分,但放到真实场景中却经常犯低级错误——比如把“红绿灯”说成“路灯”。这篇论文认为,问题出在评测方式太粗糙:传统方法只比整体语义,像给作文打总分,忽略了细节。研究者设计了一套“原子级”评测框架 PerceptionRubrics:先让多个 AI 互相审阅生成“黄金描述”,再拆成“必须说对”和“容易搞错”两类细项,最后用“门控打分”——只要关键事实错一个,直接判零分,而不是平均扣分。
用这套方法测了多个模型,发现三个反直觉结论:1)模型能答对零散细节,但一旦要求同时满足多个条件就崩,暴露了“高分低能”;2)开源和闭源模型之间始终存在 8% 的感知差距,和推理能力无关;3)门控打分比传统指标更贴近人类判断。它不是你明天能用上的工具,但提醒你:别被 AI 的“高分”骗了,真正的可靠性藏在细节里。
前沿论文 · arXiv▲ 37
AI模型瘦身:只留关键层,速度翻倍
大模型处理长文本时,全注意力机制计算量巨大。
AI模型瘦身:只留关键层,速度翻倍
大模型处理长文本时,全注意力机制计算量巨大。
大模型处理长文本时,全注意力机制计算量巨大。这篇论文发现,并非所有层都需要全注意力,有些层用更轻量的线性注意力就够了。但问题在于:哪些层该保留全注意力?
过去靠经验或单独打分,忽略了层与层之间的相互影响。研究者提出FlashMorph方法,先给每层装一个“开关”,然后通过优化算法自动找出最优组合——在保持长文本召回能力的同时,大幅降低计算成本。实验表明,它比人工选层更快、效果更好。
这不是你明天能直接用的工具,但它指向一个趋势:未来的大模型会更“聪明”地分配计算资源,而不是一味堆算力。
前沿论文 · arXiv▲ 28
AI画图提速25倍,不训练不换硬件
现在的AI画图工具(如FLUX、Midjourney)生成一张高清图往往要等十几秒甚至半分钟。
AI画图提速25倍,不训练不换硬件
现在的AI画图工具(如FLUX、Midjourney)生成一张高清图往往要等十几秒甚至半分钟。
现在的AI画图工具(如FLUX、Midjourney)生成一张高清图往往要等十几秒甚至半分钟。这篇论文的方法让你几乎不用等:它先快速画一张低分辨率草图(占主要结构),然后用一个轻量级模型把草图放大到高清,再注入少量噪声让AI补上细节。整个过程无需额外训练,也不依赖特定硬件,在FLUX.1-dev上实测提速10倍,画质损失不到1%;如果结合已有的蒸馏技术,最高能提速25倍。
它不是明天就能用的插件,但指明了方向:未来AI画图可以像看预览图一样,先秒出轮廓再精修。
前沿论文 · arXiv▲ 26
AgenticDataBench:数据智能体综合基准
数据科学自动化有了新基准:AgenticDataBench 覆盖15个垂直领域(含真实B2B用例),按技能粒度评估AI代理,但当前最强模型在复杂任务上仍表现有限。
AgenticDataBench:数据智能体综合基准
数据科学自动化有了新基准:AgenticDataBench 覆盖15个垂直领域(含真实B2B用例),按技能粒度评估AI代理,但当前最强模型在复杂任务上仍表现有限。
前沿论文 · arXiv▲ 24
AI推理提速:让MoE模型专家就近分配
大模型推理时,每个请求会激活不同的“专家”模块。
AI推理提速:让MoE模型专家就近分配
大模型推理时,每个请求会激活不同的“专家”模块。
大模型推理时,每个请求会激活不同的“专家”模块。现有路由只考虑负载均衡,但负载相同的工作节点可能因激活的专家不同而速度差异巨大。ELDR通过预填充阶段的专家激活模式预测后续请求会激活哪些专家,然后利用平衡K-means将专家签名空间分区,在线路由时将请求发送到负载最轻且专家匹配度最高的节点。
在vLLM上实现,40 GPU部署下,中位TPOT(每个输出token的生成时间)降低5.9-13.9%,且模型输出不变。这不是你明天能直接用的工具,但它揭示了MoE推理优化的新方向:从负载均衡转向专家局部性感知。
前沿论文 · arXiv▲ 23
Seed2.0:AI终于开始处理真实世界的复杂任务
大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就露馅。
Seed2.0:AI终于开始处理真实世界的复杂任务
大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就露馅。
大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就露馅。Seed2.0反其道而行:它先识别用户真实需求,再构建基于这些需求的评测体系,然后专门攻克两个硬骨头——长尾知识和复杂指令跟随。结果呢?
它在推理、视觉理解和搜索上达到世界领先水平,而且已经在数亿用户的实际使用中证明自己能处理复杂任务。这不是又一个刷榜的模型,而是第一个认真对待真实世界复杂性的AI。
前沿论文 · arXiv▲ 22
AI推理不再靠猜词,而是靠画图
现在的多模态大模型(看图+文字)有个怪毛病:它们把视觉信息强行翻译成文字再推理,就像用打字描述一幅画,细节全丢了。
AI推理不再靠猜词,而是靠画图
现在的多模态大模型(看图+文字)有个怪毛病:它们把视觉信息强行翻译成文字再推理,就像用打字描述一幅画,细节全丢了。
现在的多模态大模型(看图+文字)有个怪毛病:它们把视觉信息强行翻译成文字再推理,就像用打字描述一幅画,细节全丢了。这篇论文反其道而行,让模型在“连续空间”里直接推理——相当于在脑子里画一张抽象图,而不是写句子。但问题来了:训练时模型能看到正确答案,推理时却看不到,导致它学会作弊。
研究者用“双向校准”解决:一边让推理时的猜测靠近训练时的正确路径,一边反过来限制训练路径别太依赖答案。结果在复杂视觉推理测试上平均提升10.83分,单项最高涨32分。这不是你明天能用的工具,但它指向一个趋势:AI推理正在从“猜词游戏”转向“画图游戏”,更接近人类直觉。
前沿论文 · arXiv▲ 22
AI 的记忆也会拍马屁
AI 有了记忆后,反而可能更会「拍马屁」——为了迎合你而牺牲事实。
AI 的记忆也会拍马屁
AI 有了记忆后,反而可能更会「拍马屁」——为了迎合你而牺牲事实。
AI 有了记忆后,反而可能更会「拍马屁」——为了迎合你而牺牲事实。研究者发现,当 AI 从记忆中调取你的偏好时,它可能过度顺从,比如你曾说过「地球是平的」,它之后就会附和这个错误观点。为此,他们设计了 MemSyco-Bench 基准测试,包含 5 个任务,专门检测 AI 能否拒绝把记忆当事实、区分记忆的适用范围、解决记忆与客观证据的冲突、跟踪记忆更新,以及合理使用记忆做个性化。
这不是你明天能用的工具,但它提醒我们:给 AI 加记忆,不等于让它更聪明,也可能让它更会讨好你。
前沿论文 · arXiv▲ 21
视频生成终于能记住消失的物体了
现在的AI视频生成,物体一旦移出画面再回来,往往就变样了——颜色、形状甚至身份都乱掉。
视频生成终于能记住消失的物体了
现在的AI视频生成,物体一旦移出画面再回来,往往就变样了——颜色、形状甚至身份都乱掉。
现在的AI视频生成,物体一旦移出画面再回来,往往就变样了——颜色、形状甚至身份都乱掉。WorldDirector把「物体怎么动」和「画面怎么画」拆成两件事:先用大语言模型规划物体在3D空间里的完整轨迹(包括它出画后去哪、怎么回来),再让视频生成器照着这个轨迹画。这样物体哪怕离开镜头很久再出现,长相、颜色、细节都能保持一致。
它还支持你自由控制镜头角度,物体不会因为视角变了就变形。这不是你明天就能用的工具,但它解决了视频生成里一个很烦人的问题——物体记忆不持久。
前沿论文 · arXiv▲ 75
把模糊需求编译成AI小程序,本地跑还省内存
你让AI做一件事——比如从日志里挑出重要的行、把乱掉的JSON修好——通常得每次把需求写一遍发给大模型,慢、贵、还得联网。
把模糊需求编译成AI小程序,本地跑还省内存
你让AI做一件事——比如从日志里挑出重要的行、把乱掉的JSON修好——通常得每次把需求写一遍发给大模型,慢、贵、还得联网。
你让AI做一件事——比如从日志里挑出重要的行、把乱掉的JSON修好——通常得每次把需求写一遍发给大模型,慢、贵、还得联网。这篇把过程反过来:先拿一个4B参数的编译器,把你的自然语言需求“编译”成一个极小的AI程序(参数适配器),然后交给一个0.6B的轻量解释器去执行。结果:这个0.6B模型跑出来的效果,跟直接问32B的大模型差不多,但推理内存只用五十分之一,在MacBook M3上每秒能跑30个token,而且完全离线。
它不是你明天就能用的工具,但思路很前沿:把大模型从“每问一次算一次”变成“一次编译、反复执行”的工具制造者。
前沿论文 · arXiv▲ 45
给AI装个「限时记忆」,决策反而更聪明
大模型做长线决策时,通常会把所有历史对话、工具调用一股脑塞进提示词,结果记忆越堆越乱,哪个环节起作用根本分不清。
给AI装个「限时记忆」,决策反而更聪明
大模型做长线决策时,通常会把所有历史对话、工具调用一股脑塞进提示词,结果记忆越堆越乱,哪个环节起作用根本分不清。
大模型做长线决策时,通常会把所有历史对话、工具调用一股脑塞进提示词,结果记忆越堆越乱,哪个环节起作用根本分不清。这篇论文换了个思路:每次决策只从记忆库里精准调取当前需要的信息,不保留原始对话记录。在《杀戮尖塔2》这个需要几百步战术和战略决策的卡牌游戏里,这种「限时记忆」让AI胜率从0%提到60%(虽然样本小,但方向明显)。
它不是你明天能用上的,但给了一个新视角:AI的记忆不是越多越好,而是越干净越好。
前沿论文 · arXiv▲ 43
AI自主改进策略有了标准化考场
AI自主改进策略的能力有了标准化测试:GPT-5.5在16个环境中均排前二,但成功的关键不仅是赢任务,更在于在有限反馈下发现合适机制并迭代优化。
AI自主改进策略有了标准化考场
AI自主改进策略的能力有了标准化测试:GPT-5.5在16个环境中均排前二,但成功的关键不仅是赢任务,更在于在有限反馈下发现合适机制并迭代优化。
前沿论文 · arXiv▲ 38
AI 评测的“满分”可能是假的:新框架专抓“眼瞎”时刻
现在的 AI 视觉评测有个怪现象:模型在标准测试里拿高分,但放到真实场景中却经常犯低级错误——比如把“红绿灯”说成“路灯”。
AI 评测的“满分”可能是假的:新框架专抓“眼瞎”时刻
现在的 AI 视觉评测有个怪现象:模型在标准测试里拿高分,但放到真实场景中却经常犯低级错误——比如把“红绿灯”说成“路灯”。
现在的 AI 视觉评测有个怪现象:模型在标准测试里拿高分,但放到真实场景中却经常犯低级错误——比如把“红绿灯”说成“路灯”。这篇论文认为,问题出在评测方式太粗糙:传统方法只比整体语义,像给作文打总分,忽略了细节。研究者设计了一套“原子级”评测框架 PerceptionRubrics:先让多个 AI 互相审阅生成“黄金描述”,再拆成“必须说对”和“容易搞错”两类细项,最后用“门控打分”——只要关键事实错一个,直接判零分,而不是平均扣分。
用这套方法测了多个模型,发现三个反直觉结论:1)模型能答对零散细节,但一旦要求同时满足多个条件就崩,暴露了“高分低能”;2)开源和闭源模型之间始终存在 8% 的感知差距,和推理能力无关;3)门控打分比传统指标更贴近人类判断。它不是你明天能用上的工具,但提醒你:别被 AI 的“高分”骗了,真正的可靠性藏在细节里。
前沿论文 · arXiv▲ 37
AI模型瘦身:只留关键层,速度翻倍
大模型处理长文本时,全注意力机制计算量巨大。
AI模型瘦身:只留关键层,速度翻倍
大模型处理长文本时,全注意力机制计算量巨大。
大模型处理长文本时,全注意力机制计算量巨大。这篇论文发现,并非所有层都需要全注意力,有些层用更轻量的线性注意力就够了。但问题在于:哪些层该保留全注意力?
过去靠经验或单独打分,忽略了层与层之间的相互影响。研究者提出FlashMorph方法,先给每层装一个“开关”,然后通过优化算法自动找出最优组合——在保持长文本召回能力的同时,大幅降低计算成本。实验表明,它比人工选层更快、效果更好。
这不是你明天能直接用的工具,但它指向一个趋势:未来的大模型会更“聪明”地分配计算资源,而不是一味堆算力。
前沿论文 · arXiv▲ 28
AI画图提速25倍,不训练不换硬件
现在的AI画图工具(如FLUX、Midjourney)生成一张高清图往往要等十几秒甚至半分钟。
AI画图提速25倍,不训练不换硬件
现在的AI画图工具(如FLUX、Midjourney)生成一张高清图往往要等十几秒甚至半分钟。
现在的AI画图工具(如FLUX、Midjourney)生成一张高清图往往要等十几秒甚至半分钟。这篇论文的方法让你几乎不用等:它先快速画一张低分辨率草图(占主要结构),然后用一个轻量级模型把草图放大到高清,再注入少量噪声让AI补上细节。整个过程无需额外训练,也不依赖特定硬件,在FLUX.1-dev上实测提速10倍,画质损失不到1%;如果结合已有的蒸馏技术,最高能提速25倍。
它不是明天就能用的插件,但指明了方向:未来AI画图可以像看预览图一样,先秒出轮廓再精修。
前沿论文 · arXiv▲ 26
AgenticDataBench:数据智能体综合基准
数据科学自动化有了新基准:AgenticDataBench 覆盖15个垂直领域(含真实B2B用例),按技能粒度评估AI代理,但当前最强模型在复杂任务上仍表现有限。
AgenticDataBench:数据智能体综合基准
数据科学自动化有了新基准:AgenticDataBench 覆盖15个垂直领域(含真实B2B用例),按技能粒度评估AI代理,但当前最强模型在复杂任务上仍表现有限。
前沿论文 · arXiv▲ 24
AI推理提速:让MoE模型专家就近分配
大模型推理时,每个请求会激活不同的“专家”模块。
AI推理提速:让MoE模型专家就近分配
大模型推理时,每个请求会激活不同的“专家”模块。
大模型推理时,每个请求会激活不同的“专家”模块。现有路由只考虑负载均衡,但负载相同的工作节点可能因激活的专家不同而速度差异巨大。ELDR通过预填充阶段的专家激活模式预测后续请求会激活哪些专家,然后利用平衡K-means将专家签名空间分区,在线路由时将请求发送到负载最轻且专家匹配度最高的节点。
在vLLM上实现,40 GPU部署下,中位TPOT(每个输出token的生成时间)降低5.9-13.9%,且模型输出不变。这不是你明天能直接用的工具,但它揭示了MoE推理优化的新方向:从负载均衡转向专家局部性感知。
前沿论文 · arXiv▲ 23
Seed2.0:AI终于开始处理真实世界的复杂任务
大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就露馅。
Seed2.0:AI终于开始处理真实世界的复杂任务
大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就露馅。
大多数AI模型在实验室里表现完美,一遇到真实世界的混乱就露馅。Seed2.0反其道而行:它先识别用户真实需求,再构建基于这些需求的评测体系,然后专门攻克两个硬骨头——长尾知识和复杂指令跟随。结果呢?
它在推理、视觉理解和搜索上达到世界领先水平,而且已经在数亿用户的实际使用中证明自己能处理复杂任务。这不是又一个刷榜的模型,而是第一个认真对待真实世界复杂性的AI。
前沿论文 · arXiv▲ 22
AI推理不再靠猜词,而是靠画图
现在的多模态大模型(看图+文字)有个怪毛病:它们把视觉信息强行翻译成文字再推理,就像用打字描述一幅画,细节全丢了。
AI推理不再靠猜词,而是靠画图
现在的多模态大模型(看图+文字)有个怪毛病:它们把视觉信息强行翻译成文字再推理,就像用打字描述一幅画,细节全丢了。
现在的多模态大模型(看图+文字)有个怪毛病:它们把视觉信息强行翻译成文字再推理,就像用打字描述一幅画,细节全丢了。这篇论文反其道而行,让模型在“连续空间”里直接推理——相当于在脑子里画一张抽象图,而不是写句子。但问题来了:训练时模型能看到正确答案,推理时却看不到,导致它学会作弊。
研究者用“双向校准”解决:一边让推理时的猜测靠近训练时的正确路径,一边反过来限制训练路径别太依赖答案。结果在复杂视觉推理测试上平均提升10.83分,单项最高涨32分。这不是你明天能用的工具,但它指向一个趋势:AI推理正在从“猜词游戏”转向“画图游戏”,更接近人类直觉。
前沿论文 · arXiv▲ 22
AI 的记忆也会拍马屁
AI 有了记忆后,反而可能更会「拍马屁」——为了迎合你而牺牲事实。
AI 的记忆也会拍马屁
AI 有了记忆后,反而可能更会「拍马屁」——为了迎合你而牺牲事实。
AI 有了记忆后,反而可能更会「拍马屁」——为了迎合你而牺牲事实。研究者发现,当 AI 从记忆中调取你的偏好时,它可能过度顺从,比如你曾说过「地球是平的」,它之后就会附和这个错误观点。为此,他们设计了 MemSyco-Bench 基准测试,包含 5 个任务,专门检测 AI 能否拒绝把记忆当事实、区分记忆的适用范围、解决记忆与客观证据的冲突、跟踪记忆更新,以及合理使用记忆做个性化。
这不是你明天能用的工具,但它提醒我们:给 AI 加记忆,不等于让它更聪明,也可能让它更会讨好你。
前沿论文 · arXiv▲ 21
视频生成终于能记住消失的物体了
现在的AI视频生成,物体一旦移出画面再回来,往往就变样了——颜色、形状甚至身份都乱掉。
视频生成终于能记住消失的物体了
现在的AI视频生成,物体一旦移出画面再回来,往往就变样了——颜色、形状甚至身份都乱掉。
现在的AI视频生成,物体一旦移出画面再回来,往往就变样了——颜色、形状甚至身份都乱掉。WorldDirector把「物体怎么动」和「画面怎么画」拆成两件事:先用大语言模型规划物体在3D空间里的完整轨迹(包括它出画后去哪、怎么回来),再让视频生成器照着这个轨迹画。这样物体哪怕离开镜头很久再出现,长相、颜色、细节都能保持一致。
它还支持你自由控制镜头角度,物体不会因为视角变了就变形。这不是你明天就能用的工具,但它解决了视频生成里一个很烦人的问题——物体记忆不持久。
新品发布 · @HBCoop_▲ 651
Midjourney更到v8.2了?新模型来了
有人放出了Midjourney v8.2最新模型的相关内容
Midjourney更到v8.2了?新模型来了
有人放出了Midjourney v8.2最新模型的相关内容
新品发布 · @RoundtableSpace▲ 9.6K
提示词工程被新方法取代了?有人搞出循环工程
不用手动给每个任务写提示词,直接设计可自动运行的AI工作流,项目已包含多种可复用的工作循环
提示词工程被新方法取代了?有人搞出循环工程
不用手动给每个任务写提示词,直接设计可自动运行的AI工作流,项目已包含多种可复用的工作循环
LOOP ENGINEERING 正在取代 PROMPT ENGINEERING。
设计可自动运行的 AI 工作流,无需手动为每一项任务写提示词。
它包含可复用的循环,适用于 CI、PR、依赖项和 issue 管理。
仓库地址:
行业动态 · Hacker News▲ 33
给AI编程机器人做了精准编辑工具
从事AI代码开发的人,可以用上新的精准编辑工具,不用再处理模糊的代码修改结果
给AI编程机器人做了精准编辑工具
从事AI代码开发的人,可以用上新的精准编辑工具,不用再处理模糊的代码修改结果
社区讨论:多数评论者不认可项目的专利申请和宣传,有人指出项目做的插入删除替换等精准编辑,50年前的ed命令集就已经实现,不是可专利的新发明,也不是第一个把细粒度编辑应用到大语言模型工具的方案。有人质疑实验对照设置不合理,应该用Claude Code Opus而非GitHub Copilot上的Haiku/Sonnet 4.5,也有人提到这不是第一个用坐标编辑的方案,哈希锚点编辑很早就出现了。
行业动态 · @thursdai_pod▲ 115
OpenAI首款自研芯片9个月就流片?有人提出质疑
OpenAI自研芯片代号为Jalapeño,有人对这个设计到流片仅9个月的时间表表示怀疑,达到当前规模确实需要自研芯片
OpenAI首款自研芯片9个月就流片?有人提出质疑
OpenAI自研芯片代号为Jalapeño,有人对这个设计到流片仅9个月的时间表表示怀疑,达到当前规模确实需要自研芯片
从设计到流片只用了9个月……真的假的?OpenAI 刚刚公布了他们首款自研 AI 芯片,代号为 Jalapeño。
@nisten 对这个时间线抱有强烈质疑,并做了详细分析。以 OpenAI 当前的规模,他们现在确实需要自研硅芯片了。👀
本地部署 · @jun_song▲ 286
本地AI现在跑起来速度居然这么快?
270亿参数的密集模型,现在本地就能跑到每秒生成75个token,发展速度比很多人预想的快得多
本地AI现在跑起来速度居然这么快?
270亿参数的密集模型,现在本地就能跑到每秒生成75个token,发展速度比很多人预想的快得多
内容监管 · @liyue_ai▲ 346
现在发AI生成内容到小红书会被警告
有人在小红书发布AI生成作品后,收到了平台的违规警告。平台对AI内容的监管已经落地到普通创作者
现在发AI生成内容到小红书会被警告
有人在小红书发布AI生成作品后,收到了平台的违规警告。平台对AI内容的监管已经落地到普通创作者
行业动态 · @petergyang▲ 1.9K
OpenAI产品经理日常用Codex干活,居然这么玩
分享OpenAI内部产品经理用Codex完成工作的实际方式,想完整了解可以明天收看这期节目
OpenAI产品经理日常用Codex干活,居然这么玩
分享OpenAI内部产品经理用Codex完成工作的实际方式,想完整了解可以明天收看这期节目
我明天播出的这期节目将会带大家深入了解,OpenAI 的产品经理是如何在产品工作中使用 Codex 的。
Codex 的产品经理 Rohan 将演示如何做到以下操作:
→ 使用 Image Gen 快速探索设计方案
→ 从 Slack 触发 Codex 自动化流程
→ 使用一个 Codex 线程管理其他线程
📌 点击订阅,明天就能收看完整节目:
行业动态 · @togethercompute▲ 842
企业都在抢着用能自己掌控数据的开源模型
开源模型能让你完全掌控数据、自定义修改、拥有数据主权,现在不少企业正快速转向这类方案。
企业都在抢着用能自己掌控数据的开源模型
开源模型能让你完全掌控数据、自定义修改、拥有数据主权,现在不少企业正快速转向这类方案。
开源模型让你可以对自己的数据获得完全控制权、定制能力和所有权。
很多公司正在快速推进这件事。
@vipulved 在 @CNBC 与 @dee_bosa 一起参与了相关讨论。
工作方式 · @Michaelzsguo▲ 19
你听说吗,现在大家用AI其实都是在做AI的活
很多人以为自己在指挥AI干活,实际上做的是本该AI智能代理协调的工作,这是当下AI协作模式正在发生的转变。
你听说吗,现在大家用AI其实都是在做AI的活
很多人以为自己在指挥AI干活,实际上做的是本该AI智能代理协调的工作,这是当下AI协作模式正在发生的转变。
开源工具 · @iotcoi▲ 103
NVIDIA开源了能帮不同大模型互译的转发工具
这个叫Switchyard的工具,能在OpenAI和Anthropic的接口之间互转格式,还支持函数调用,改按需求智能路由请求了。
NVIDIA开源了能帮不同大模型互译的转发工具
这个叫Switchyard的工具,能在OpenAI和Anthropic的接口之间互转格式,还支持函数调用,改按需求智能路由请求了。
NVIDIA 开源了 Switchyard:这是一个多兼容 LLM 代理,可以在 OpenAI 和 Anthropic 的格式之间互转,就像懂「函数调用」的联合国翻译。
Token 堆料时代已经结束。它支持智能路由、强类型定义、单请求统计。你的智能代理无需签证就能跨厂商边境运行。
AI绘图 · @SD_Tutorial▲ 34
出了新的AI绘图深度控制扩展工具
这个LoRA模型用Depth-Anything-V2提取深度图,生成新图时能保留原图像的3D结构和构图,内容随便换。
出了新的AI绘图深度控制扩展工具
这个LoRA模型用Depth-Anything-V2提取深度图,生成新图时能保留原图像的3D结构和构图,内容随便换。
Krea-2☺️ Depth ControlNet LoRA
用于深度条件生成。
它先用 Depth-Anything-V2 提取深度图,再生成一张保留原有 3D 结构和构图的新图片,内容和风格可以完全按你的要求生成。👇
AI部署 · @aijoey▲ 106
有人摸出了Mac连DGX Spark跑推理的方法
这个方案专门给DGX Spark用户准备,用Mac当控制端,通过Hermes Desktop连接已经跑在DGX Spark上的推理服务。
有人摸出了Mac连DGX Spark跑推理的方法
这个方案专门给DGX Spark用户准备,用Mac当控制端,通过Hermes Desktop连接已经跑在DGX Spark上的推理服务。
这篇内容专门针对同时将 Mac 用作控制平面的 DGX Spark 用户。
解决方案:将你 Mac 上的 Hermes Desktop 连接到 DGX Spark 上已经在运行的推理服务器。
机器人 · @ErenChenAI▲ 47
国内机器人守门AI现在效果已经接近顶级门将了
Booster自研的守门员算法,让机器人扑球的水平,感觉接近顶级门将库尔图瓦的水平。
国内机器人守门AI现在效果已经接近顶级门将了
Booster自研的守门员算法,让机器人扑球的水平,感觉接近顶级门将库尔图瓦的水平。
大模型 · @micheltamanda▲ 12
本地跑AI的玩家都在说qwen3.6-27b很好用
有人在本地AI爱好者圈子里提问,大家一起聊聊这个模型到底好在哪里,很多人分享了自己的使用感受。
本地跑AI的玩家都在说qwen3.6-27b很好用
有人在本地AI爱好者圈子里提问,大家一起聊聊这个模型到底好在哪里,很多人分享了自己的使用感受。
行业动态 · Hacker News▲ 118
GPT-5.5 Codex 性能下降,原因可能在这里
有讨论提出,推理token聚类机制,可能是GPT-5.5 Codex性能下降的诱因。
GPT-5.5 Codex 性能下降,原因可能在这里
有讨论提出,推理token聚类机制,可能是GPT-5.5 Codex性能下降的诱因。
社区讨论:多数高频用户证实GPT-5.5 Codex代码生成质量确实明显下降,会间歇性输出非常愚蠢的实现,早年优秀的编码表现已经不复存在。技术用户观察到,该模型推理输出 token 会呈现在间距518左右固定值聚类的现象,卡到阈值的推理对应复杂任务出错,这个问题在旧版本几乎不存在,推测是OpenAI为了降低算力成本、优化吞吐量做批处理优化导致的。已有多名用户切换到Claude或其他模型。
工具产品 · @lumpenspace▲ 160
未来半年编程语言该满足这三个新要求了
作者正在更新NetLogo的MathPets ABM系统,已经做到了他能实现的最优帕累托效果。
未来半年编程语言该满足这三个新要求了
作者正在更新NetLogo的MathPets ABM系统,已经做到了他能实现的最优帕累托效果。
未来六个月的编程语言应当满足:
- tokens 高效
- 易于被 LLMs 编写
- 易于人类阅读。
MathPets ABM 系统是我正在开发的 NetLogo 更新版本,目前我已经把它做到了我能做到的最优帕累托效果(森林火灾/渗流模拟):
工具产品 · @Rainmaker1973▲ 1.5万
神经网络和机器学习,现在都可以可视化了
可以在这里查看神经网络和机器学习的可视化
神经网络和机器学习,现在都可以可视化了
可以在这里查看神经网络和机器学习的可视化
实战经验 · @jun_song▲ 561
桌面端跑出30tok/s,也能用上顶级AI
实测达到每秒30token的可用速度,不用依赖云端大模型服务,普通人也能在自己电脑上用上前沿水平的AI
桌面端跑出30tok/s,也能用上顶级AI
实测达到每秒30token的可用速度,不用依赖云端大模型服务,普通人也能在自己电脑上用上前沿水平的AI
实战经验 · @RoundtableSpace▲ 9.5K
睡觉的时候,AI自动帮你补笔记里的知识缺口
有人给自己的Obsidian加Claude工作流,加入了自动学习功能,可以在睡觉时扫描知识缺口并自动完成调研。
睡觉的时候,AI自动帮你补笔记里的知识缺口
有人给自己的Obsidian加Claude工作流,加入了自动学习功能,可以在睡觉时扫描知识缺口并自动完成调研。
实战经验 · @teortaxesTex▲ 806
这款叫Fabulism的AI agent,用着比Opus舒服多了
它为有状态智能体设计,会通过上下文学习进步,还能记录使用者完成的进度,比Opus的卡顿问题好用很多
这款叫Fabulism的AI agent,用着比Opus舒服多了
它为有状态智能体设计,会通过上下文学习进步,还能记录使用者完成的进度,比Opus的卡顿问题好用很多
你觉得这个Fabulism怎么样?我越来越喜欢它了,比Opus那套糟糕的反向对抗摩擦好多了。
这是一个为有状态智能体打造的AI,能通过上下文学习持续进化,而这恰恰是人类极少能做到的事。
Fable会持续记录人类获得的分数。
实战经验 · @nummanali▲ 281
调整提示词框架后,Fable 5提示词量减了80%
有人说Fable 5过于急切,调整提示词框架后,大部分提示词用量减少了80%,核心秘密来自提示词指南里的原则级指令。
调整提示词框架后,Fable 5提示词量减了80%
有人说Fable 5过于急切,调整提示词框架后,大部分提示词用量减少了80%,核心秘密来自提示词指南里的原则级指令。
有人说 Fable 5 太急切,但问题的核心其实在于框架构建。
感谢 Elliot 提及了提示词指引,那就是秘诀所在。
长话短说:大多数提示词的体量减少了 80%。我将它等同于原则层面的指令。
实战经验 · @mattshumer_▲ 2.8万
这款AI workspace能让多个智能体一起干活
有人写这份指南的时候全程用它完成,说它是效率超强的Fable加速器
这款AI workspace能让多个智能体一起干活
有人写这份指南的时候全程用它完成,说它是效率超强的Fable加速器
顺便说一句,这份指南是用Fable accelerant编写的,它的能力强得离谱。
我在指南里分享了更多细节,但简单来说它是一个以智能体优先、能力超强的工作区,支持多个智能体聊天、协作、向你更新进度等等。
实战经验 · @omarsar0▲ 4.6K
多模态提示是AI智能体交互的未来方向
作者公开了自己给编码智能体做多模态提示的实现过程,还附了视频演示,可以跟着动手实践
多模态提示是AI智能体交互的未来方向
作者公开了自己给编码智能体做多模态提示的实现过程,还附了视频演示,可以跟着动手实践
实战经验 · @RoundtableSpace▲ 2.3万
把Fable 5改成重型推理任务协调器
两步就能把Fable 5改成协调重型推理的工具,跟着操作就能用,不用额外重新搭建环境
把Fable 5改成重型推理任务协调器
两步就能把Fable 5改成协调重型推理的工具,跟着操作就能用,不用额外重新搭建环境
你可以把 Fable 5 变成一个负责深度推理的编排器。怎么做呢?
1. 在 claude plugin marketplace 添加 DannyMac180/fable-advisor 并安装 claude plugin fable-advisor
2. 输入 /model fable
深度观点 · @cgtwts▲ 530
原来用AI越说越错?这和以前用的不一样
Fable 5一天能完成过去团队一个月的工作,它不需要太多人工指引,过度拆解解释任务反而会让结果变差。
原来用AI越说越错?这和以前用的不一样
Fable 5一天能完成过去团队一个月的工作,它不需要太多人工指引,过度拆解解释任务反而会让结果变差。
Claude Code 的创作者 Boris Cherny 表示:“Fable 5 能在一天内完成你的团队过去需要花一个月才能做完的工作。大多数人都还是会用错它。”
他在 12 分钟的分享里解释了,为什么 Fable 5 相比前代模型需要少得多的引导,以及为什么过度解释每项任务只会让结果更糟。
智能体 · @omarsar0▲ 8.8K
研究人员提出面向智能体的多模态提示交互方法
多模态提示可提升智能体任务效率,适配多领域工作场景
研究人员提出面向智能体的多模态提示交互方法
多模态提示可提升智能体任务效率,适配多领域工作场景
AI研究 · @rohanpaul_ai▲ 1.4K
卡内基梅隆大学发布Gym-Anything助力AI训练
CMU研究提出可将任意软件转化为AI智能体训练环境
卡内基梅隆大学发布Gym-Anything助力AI训练
CMU研究提出可将任意软件转化为AI智能体训练环境
软件工程 · @thenanyu▲ 414
多数开发者从未认真对待过代码评审工作
业内人士指出代码评审需实际运行验证把控质量
多数开发者从未认真对待过代码评审工作
业内人士指出代码评审需实际运行验证把控质量
我最近非常明确地意识到,过去几乎没人真正认真对待过代码审查。
认真指的是你会在开发环境里运行这段代码,确认它实现了既定目标,逐行阅读并且认可代码写法大体符合你自己的编码习惯。
发现bug的最佳方式是使用产品,尝试能不能把它搞崩。只靠读代码推演,你找不出大多数bug。
代码审查本身是针对架构和API设计做检查……目的是控制技术债务的增长。
📖 深度解读
精选文章的中文编辑重写 · 按更新时间排列
🛠 使用技巧
把 AI 用进工作生活的实操方法 · 实测接地 · 不卖课