Codex app 非常棒。
@OpenAI codex 见面会在 @GrabSG 举办!活动马上就要开始了!
亚马逊旗下云服务AWS正在洽谈对外出售自研AI芯片Trainium,用于数据中心。AWS AI负责人Peter DeSantis向彭博社证实了这一谈判,但拒绝透露潜在买家。
这相当于在AI算力市场引入一个能跟英伟达掰手腕的新选项。英伟达当前收入运行率约为3260亿美元,在AI芯片市场占绝对主导。
亚马逊之前一直抵制出售芯片,核心原因是商业模式问题。AWS从芯片上赚钱的方式是一种“瀑布效应”:客户在AWS云上用芯片生成token,不仅为芯片付钱,还要为存储、安全、网络、监控等配套服务付费。一旦把芯片单独卖出去,这笔捆绑收入就没了。
𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌
没有更多细节评价,只有一句直接使用体验,目前OpenAI在新加坡Grab举办了Codex开发者见面会
Anthropic分析40万次会话,公布Claude Code使用价值与成功规律
LoRA监督微调后,开源通义千问性能接近或超越前沿模型
对开源模型微调可以达到甚至超过前沿模型的水平。
📦开箱即用的Base @Alibaba_Qwen 搭配优质提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。
🔧经过LoRA监督微调后:两款模型的性能都接近甚至超过了前沿水平。
博文介绍Claude Managed Agents及其解决的Agent落地生产痛点
团队如何将智能代理投入生产?我们的Applied AI团队发布了一篇新博客,介绍Claude Managed Agents,以及它能解决的各类挑战(凭证管理、沙箱、可观测性等等)……
这篇博客分享了团队选择基于Claude Managed Agents构建的常见原因、多个案例研究,以及入门的实用技巧:
已有研究证实,用不良数据训练AI会让全模型失控。现在证实反向结论也成立,单领域正向训练数据能让全任务模型更合规
Claude新增企业级托管认证MCP扩展,联合多工具开启Beta测试
我们已经为 MCP 添加了 Enterprise-Managed Auth 扩展支持。管理员可以为他们的组织集中授权 MCP 连接器,这样用户第一次登录时,所有需要的工具和数据就都已经连接好了。
它通过你的身份提供商集中授权:用户不需要逐个应用配置 OAuth 或进行设置,管理员也能获得更严格、更高效的控制。
目前处于 beta 测试阶段,支持 Okta,以及来自 Asana、Atlassian、Canva、Figma、Granola、Linear、Slack 和 Supabase 的连接器,Slack 支持很快推出。在 Claude chat、Claude Code 和 Cowork 中,访问权限保持一致。阅读公告:
它构建在一个 MCP 扩展之上,任何客户端、服务器或 IdP 都可以采用。如果你有兴趣了解更多或采用它,请点击这里阅读:
AI领域知名人士Jeremy Howard公开评价GLM 5.2并推荐推理服务商
哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8 以及 GPT 5.5 一样优秀。它速度超快、价格便宜,而且不会过度冗长。
它的回答富有层次感和判断力,处理长上下文的表现非常出色。我之前从未用过这么优秀的开放权重模型。
它现存的一个大缺陷是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它很可能会成为世界上最好用的模型。
顺便一提,我一直用 @FireworksAI_HQ 做推理。其他提供商可能没有这么快。
开发者称GLM 5.2性能对标头部闭源模型,仅不支持图像处理
哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8、GPT 5.5 一样好。
它速度超快,价格低廉,也不会过于啰嗦。它的回答充满细节分寸和判断,而且处理长上下文非常出色。我从未见过这样的开源权重模型。
它目前最大的短板是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它说不定会成为全球现有的最强模型。
顺便说一句,我是用 @FireworksAI_HQ 做推理的。其他供应商可能没这么快。
感兴趣可以点击链接观看这场直播,直接了解讨论内容
今天美国东部时间下午6点,我会和@sckimbriel一起在纽约,参加@aspeninstitute举办的关于人工智能与社会未来的对话活动。
我们会讨论RSI、AI进步所预示的未来,以及这项技术发展过程中我们需要考虑的选择。
可在这里观看直播:
新开源权重模型GLM-5.2沿用已有注意力机制,新增IndexShare机制让100万词元推理成本降低很多
刚了解完最新的 GLM-5.2 发布。它是目前最好的开放权重模型。
架构上,它构建于我之前介绍过的 GLM-5 和 GLM-5.1 架构之上,这意味着它复用了 DeepSeek V3.2 的多头潜在注意力(MLA)和 DeepSeek 稀疏注意力(DSA)机制。(我之前在这里写过相关内容:)
新增的内容是他们加入了 IndexShare 机制。
这是给 DSA 做的跨层复用技巧:GLM-5.2 不再需要每一层都重新计算稀疏注意力的 top-k 索引,而是每四层才完整运行一次索引器,让后续几层复用选出的 token 索引。
这套方案保留了原 DSA 的核心思路,同时让 1M-token 推理的成本大幅降低。
HyperWriteAI 早在几年前就做出来具备计算机使用能力的Agent-1 CUA模型,现在才被提起
建议认为AI界面直观的人教三人使用,会发现其使用障碍
任何觉得AI界面(聊天机器人、Codex、Code、NotebookLM等)直观好上手的人,都应该花时间给另外三个人讲解怎么用这些工具。
我保证你会发现,要得到一个好结果,有十几个小技巧和陷阱,这些都是挡在用户面前的路障。
我认为我提出的「用AI处理真实任务累计10小时」的规律是对的,但很多人连第一个小时都熬不过,还没摸清这些系统能做什么,就已经把它们框死在一个小标签里了——「有点像Google」。
这句话出自美国参议员JD Vance,AI会放大富人已经拥有的资源优势,普通人暂时还没找到能分到收益的明确路径
JD VANCE:AI不会抢走你的工作,但它会让富人变得巨富 “AI不会抢走你的工作……但它会让富人变得巨富”
直播开发 Temple Run 风格跑酷游戏,GLM做出来的画面更好、运行更流畅,最终得分让测试者非常意外
GLM 5.2 刚刚在一场实时构建对决中完虐了 Opus 4.8。最终比分让我震惊。
游戏测试:
→ GLM 5.2 构建出了最好的 Temple Run 风格无尽跑酷游戏
→ 视觉效果、游戏流畅度、可玩性都优于另外两名竞争者
→ Opus 4.8 产出的版本质量最差
模拟测试:
✓ Kimi K2.7 赢下了太阳系模拟器项目
✓ 支持缩放控制、速度控制、轨道轨迹
✓ 交互性比 GLM 5.2 和 Opus 4.8 都更强
创意构建:
✔ GLM 5.2 赢下了液态元球模拟项目
✔ GLM 5.2 构建出了效果最好的苹果风格着陆页
✔ GLM 5.2 创作了最容易让人上瘾的霓虹街机游戏
最终比分:
→ GLM 5.2 在 5 项测试中赢下 4 项
→ Kimi K2.7 赢下 1 项测试
→ Opus 4.8 没有赢下任何一个分类
最有意思的点是什么?这个最新模型根本没有做公开 benchmark 炒作。它只是拿出了更好的结果。
方便普通人自行探索 JEPA 与世界模型相关研究,不需要从零开始找资源
做企业级AI智能体的团队,可以直接在Databricks Agent Bricks平台调用Grok模型了
xAI 在 Databricks Agent Bricks 上发布了 Grok 模型,扩大了这些模型在企业级 AI 代理中的可用范围。
从Google Brain到现在Sakana AI的研究,这些早期 foundation 一直影响着研究者的思考方向
1991 年,Transformers、预训练、蒸馏和世界模型的基础就已经在构建当中了。
这些成果塑造了我个人的思考路径,从我在 Google Brain 的任职时期,一直延续到我们今天在@SakanaAILabs 开展的递归自我优化(Recursive Self-Improvement, RSI)工作中。🧠🗼 👇
项目团队目前专注于编码领域,并且已经拥有所需的算力支持。
小而专的模型已经能打败更大更强的模型
Welch Labs指出,再多投入也没法突破这个天花板,不用盲目追着更大的AI模型投入成本
爆料称OpenAI在内部系统日志中意外泄露了GPT 5.6
🚨 OpenAI 意外在自家系统日志中泄露了 GPT 5.6,相关细节非常惊人。
150万词的记忆容量。自主AI智能体。可变思考速度。仅凭一句话就能生成看起来和人工制作无异的网站。
这不只是一次更新。这是一种完全不同的AI。
想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉
分步讲解搭建协同AI智能体团队的具体操作流程
如何打造一支协作AI智能体团队:
- 搭建你第一个偏好的智能体(它就是你的编排器)
- 让它配置 Gemini Managed Agents 或类似 modal cpu 实例的服务,在独立环境中启动子智能体
- 启动一项深度研究任务,调研管理智能体团队的最佳实践:包括最佳分工、各分工所需技能,以及团队管理、交叉沟通和规划方法
- 让智能体应用研究得出的最佳建议
- 循环重复这个过程(如需可逐步增加智能体数量)
对于你的团队:
- 给他们一个空仓库,向他们发起构建项目的挑战,建立最佳实践,让智能体观察问题,提出智能体管理的修复方案并快速迭代(这个过程会梳理出竞态条件、规划方案等各类问题)
目前Cerebras已经适配GLM-4.7,Groq目前主要运行Llama 3.x和GPT-OSS。想要更快推理GLM 5.2还得等。
我非常期待 @GroqInc 或 @cerebras 这类超快定制硅推理服务商,能把 GLM 5.2 跑起来。
目前 Cerebras 已经支持 GLM-4.7,Groq 上面还基本只有 Llama 3.x 和 gpt-oss。
爆料GPT 5.6技术升级方向,博主推广AI盈利相关课程
如果这些泄露信息属实,那 GPT 5.6 将是一次巨大飞跃:
→ 单对话 150万词上下文记忆
→ 上下文容量是旧模型的10倍以上
→ 支持多步骤自主智能体
→ 一键生成网站
→ 内置推理速度模式
趋势非常清晰:AI正在从「响应请求」走向「执行任务」。
收藏这条视频,你会看到它最终通向何处。完整指南在 AI Profit Boardroom 内。私信我。💬
想要用 AI 赚钱、节省时间?获取 AI 指导、支持与课程 👉
免费获取一门 AI 课程 + 1000个全新 AI 智能体 👉
海外社交平台流出GPT 5.6的核心能力泄露信息
如果这些泄露信息属实,那GPT 5.6就是一次巨大飞跃:
→ 每个对话150万词内存
→ 上下文处理能力比旧模型提升10倍以上
→ 支持多步骤自主智能体
→ 即时生成网站
→ 内置推理速度模式
规律很清晰:AI正从「响应」转变为「执行」。
收藏这条视频,你会看到它未来的发展方向。完整指南在AI Profit Boardroom内部。私信我。💬
想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉
Benchling AI负责人提出理解LLM更接近生物学而非软件工程
在人工智能分析机构的智力指数榜单里,它得分51,仅落后于几个闭源模型,是目前排名最高的可公开权重模型。
GLM-5.2 是 Artificial Analysis 智力指数中排名领先的开放权重模型,得分 51,仅落后于 Fable 5 的 60 分、Opus 4.8 的 56 分,以及 GPT-5.5 的 55 分(数据来自 Artificial Analysis)(链接和完整背景请访问 Techmeme dot com!)
📅 ThursdAI——6月18日——美国政府封禁 Fable,GLM 5.2 成为顶尖开源模型,Cursor 估值 600 亿美元,以及更多 AI 新闻
目前顶尖模型完成这类任务的表现还不算好,但测试方向已经从简单问答转向长期复杂任务,接下来很快会推进到需要几个月完成的工作了。
我之前一直批评 Anthropic 的智能体评估工作,但这次的基准测试看起来做得很好,令人印象深刻:它针对的是不饱和、拥有私有预留测试集的真实世界知识工作。这个方向值得关注——不过我没看到人类对比得分?
我们现在已经开始在需要人类花好几周才能完成的任务上对模型做基准测试了。哪怕最好的模型表现仍然不算出色,但我们现在已经能开展这类测试这件事本身就很说明问题。
感觉我们距离让AI处理耗时数月、数年,乃至一整个职业生涯长度的任务已经不远了。「AI能完成任务但不能胜任工作」这个观点很快就站不住脚了。
有意思的还有 GLM-5.2 得分仅次于 Anthropic 的最佳模型,还超过了 GPT-5.5。我们可以等等看 GPT-5.6 推出后情况会不会变,但这已经能证明 GLM-5.2 有多优秀,也说明它对开放权重模型来说是一项重要进展。
现在大家用的AI大多还是单点工具,有人讨论未来的方向是发展自主AI,最终会变成能和人类一起干活的协作角色。
现在有可视化界面能直接连接Hermes模型和Ollama,不用再对着黑框输命令就能跑本地AI。
现在你可以把 Hermes 直接连接到 Ollama,通过可视化桌面界面运行本地 AI 模型,无需再使用终端。
不用再面对黑屏了。
不用再摆弄各种命令了。
成本优势不会只停留在单个模型上,整套技术出口的话,成本优势会覆盖更多环节。
更有意思的问题是,如果中国不只是出口AI模型,而是出口整套AI技术栈,会发生什么。成本优势并不只停留在模型层面。它最终会体现在芯片、基础设施软件、数据中心设计、能耗,以及高效运行整套系统所需的运营经验上。
中国拥有强烈的动力去优化全系统成本,因为它可用资本更少,获得前沿硬件的渠道也更有限。如果中国模型获得全球采用,其余技术栈也可能随之跟进。使用这些模型的企业,可能会越来越多地使用配套工具、基础设施和硬件。
更多部署带来更多优化,更大规模进一步拉低成本。最终会形成一个飞轮,从模型 adoption 延伸到整个技术栈的 adoption。
从历史来看,更低的成本不会降低需求,反而会扩大需求。更便宜的算力让我们拥有了更多算力,更便宜的存储让我们拥有了更多存储。最终赢家可能不是造出最智能模型的那一方,而是能以最低全系统成本提供智能服务的那一方。
目前这一切还没有发生,因为行业仍处于早期阶段。技术进步太快,没人能完全确定最终产品、商业模式和需求曲线会是什么样。但如果AI最终成为一种公用事业,整个技术栈的成本效率,其重要性可能会和模型本身的质量不相上下。
做产品的人用OpenAI的Codex调度多个智能体,调研开发工具公司的优势,用来优化自己的产品。
我让 Codex 调度了一组智能代理,去调研最优秀的开发工具公司究竟在哪些地方做得非常出色——这样我们就能把 @orca_build 做得更好。
(它显示“本地 Mac”是因为我有时候也会在虚拟机里运行代理。今天我只用本地机器,因为我终于拿到一台 128GB 的了 😄)
有人实际测试了这个AI,它待在频道里做工作,还会主动规划下一步,可以看看这和普通AI工具的区别
Microsoft Teams 刚迎来了它的首位AI员工。我已经测试过了。
这是一个真正的AI员工,驻留在频道里,能完成工作,还能提议下一步行动。
它不是又一个prompt输入框。值得一看。@viktor__com
🎧 Brand new Max Agency with @hwchase17 + @ZackRW
做通用知识智能体研究的从业者,可以关注这场新分享的内容。
这份教程讲了深度智能体框架,怎么通过原生人工介入原语实现控制,想搭智能体可以去看
Deep Agents 深度解析第四部分 | 操控:@sydneyrunkle 讲解 Deep Agents 线束如何通过一流的人工介入(HITL)原语来支持操控。
做网页AI代理的开发者可以参考,现有方法难以让学会的技能在新网站复用,新方法能让同一交互模式的技能跨站通用。
如果你正在开发网页智能体,这篇内容值得你花时间了解。它主题是如何实现智能体技能的可复用性。(记得收藏)
LLM网页智能体通常以工具调用者的身份运行。每一轮交互中,模型都会读取一个新页面,输出一个低级动作,因此无论是视野范围还是面向策略的LLM补全,在Mind2Web和WebArena这类基准测试上表现都很差。
技能库本应通过将重复片段封装为可调用工具来解决这个问题,但现有方案是基于指令相似度或网站元数据触发复用,在未见过的网站上几乎无法生效。
这项工作改用可迁移交互模式来路由技能复用,因此在一个网站上学到的技能,可以在拥有相同交互形态的新网站上触发生效。这就在按域名检索失效的场景下提升了复用效果。
为什么这很重要?搜索、筛选、翻页的操作逻辑在不同网站上都是相同的。将它抽象为模式匹配的技能,可以让网页智能体技能泛化到训练时所用网站之外的场景。
论文链接:
在我们的学院中学习如何构建有效的AI智能体:
做AI代理的团队不用再重复搭建运行环境,可以把精力集中在调整代理行为上
构建有用的智能代理正变得越来越容易,但在生产环境中运行它们依然很难。
我们打造了 Managed Deep Agents,让你的团队可以专注于代理的行为,而非反复重构它周围的运行时环境。
有人亲眼见证这件事,普通开发者不用再纠结本地模型能不能做硬核开发,直接看结果。
谷歌DeepMind明确说,AI不是泡沫,可以参考这份官方给出的判断
用户输入简短任务描述,Fleet可跨团队日常应用完成规划执行,点击即可生成AI代理
用户只需用简短提示描述任务,Fleet就能完成任务规划、执行操作。Fleet可以在团队日常使用的各类应用之间协同工作。
只需点击几次,就能把一段对话转换为可工作的AI代理。
目前已经开放试用,用户可以立即开始构建自己的AI代理。
omarsar0指出通用模型在复杂结构处理等领域仍存在不足,科研中专用模型表现更优
这是一份推荐阅读内容,其中提出了不少有价值的见解,尤其聚焦在通用模型仍存在能力缺陷的领域,比如处理复杂结构这类任务。
内容同时强调,在科学研究领域,专用模型已经取得了非常突出的成果。
当前各类任务都需要由智能体自行梳理解决,并整合现有技术。未来将会出现更多专用大语言模型,能更高效地吸收不同类型的信息。
omarsar0因此支持全智能体理念,也就是由多个不同智能体组合协同工作。
LangChain最新指南探讨摩根大通等机构金融智能体落地路径
金融服务领域智能体开发的下一阶段,将以信任、可控性和生产就绪程度作为衡量标准。
在我们的最新指南中,我们介绍了@jpmorgan、@Chime和Bridgewater如何在研究、用户体验和投资工作流中部署生产级智能体。
LoRA SFT微调后开源通义千问性能可匹配或超过前沿大模型
对开源模型微调可以达到甚至超过前沿模型的水平。
📦开箱即用的Base @Alibaba_Qwen,搭配良好提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。
🔧经过一次LoRA SFT训练后:微调后的两个模型性能都接近甚至超过了前沿模型水平。
小而专的模型已经能打败更大更强的模型
方便普通人自行探索 JEPA 与世界模型相关研究,不需要从零开始找资源
已有研究证实,用不良数据训练AI会让全模型失控。现在证实反向结论也成立,单领域正向训练数据能让全任务模型更合规
做企业级AI智能体的团队,可以直接在Databricks Agent Bricks平台调用Grok模型了
xAI 在 Databricks Agent Bricks 上发布了 Grok 模型,扩大了这些模型在企业级 AI 代理中的可用范围。
做AI代理的团队不用再重复搭建运行环境,可以把精力集中在调整代理行为上
构建有用的智能代理正变得越来越容易,但在生产环境中运行它们依然很难。
我们打造了 Managed Deep Agents,让你的团队可以专注于代理的行为,而非反复重构它周围的运行时环境。
🎧 Brand new Max Agency with @hwchase17 + @ZackRW
项目团队目前专注于编码领域,并且已经拥有所需的算力支持。
这句话出自美国参议员JD Vance,AI会放大富人已经拥有的资源优势,普通人暂时还没找到能分到收益的明确路径
JD VANCE:AI不会抢走你的工作,但它会让富人变得巨富 “AI不会抢走你的工作……但它会让富人变得巨富”
直播开发 Temple Run 风格跑酷游戏,GLM做出来的画面更好、运行更流畅,最终得分让测试者非常意外
GLM 5.2 刚刚在一场实时构建对决中完虐了 Opus 4.8。最终比分让我震惊。
游戏测试:
→ GLM 5.2 构建出了最好的 Temple Run 风格无尽跑酷游戏
→ 视觉效果、游戏流畅度、可玩性都优于另外两名竞争者
→ Opus 4.8 产出的版本质量最差
模拟测试:
✓ Kimi K2.7 赢下了太阳系模拟器项目
✓ 支持缩放控制、速度控制、轨道轨迹
✓ 交互性比 GLM 5.2 和 Opus 4.8 都更强
创意构建:
✔ GLM 5.2 赢下了液态元球模拟项目
✔ GLM 5.2 构建出了效果最好的苹果风格着陆页
✔ GLM 5.2 创作了最容易让人上瘾的霓虹街机游戏
最终比分:
→ GLM 5.2 在 5 项测试中赢下 4 项
→ Kimi K2.7 赢下 1 项测试
→ Opus 4.8 没有赢下任何一个分类
最有意思的点是什么?这个最新模型根本没有做公开 benchmark 炒作。它只是拿出了更好的结果。
没有更多细节评价,只有一句直接使用体验,目前OpenAI在新加坡Grab举办了Codex开发者见面会
新开源权重模型GLM-5.2沿用已有注意力机制,新增IndexShare机制让100万词元推理成本降低很多
刚了解完最新的 GLM-5.2 发布。它是目前最好的开放权重模型。
架构上,它构建于我之前介绍过的 GLM-5 和 GLM-5.1 架构之上,这意味着它复用了 DeepSeek V3.2 的多头潜在注意力(MLA)和 DeepSeek 稀疏注意力(DSA)机制。(我之前在这里写过相关内容:)
新增的内容是他们加入了 IndexShare 机制。
这是给 DSA 做的跨层复用技巧:GLM-5.2 不再需要每一层都重新计算稀疏注意力的 top-k 索引,而是每四层才完整运行一次索引器,让后续几层复用选出的 token 索引。
这套方案保留了原 DSA 的核心思路,同时让 1M-token 推理的成本大幅降低。
谷歌DeepMind明确说,AI不是泡沫,可以参考这份官方给出的判断
感兴趣可以点击链接观看这场直播,直接了解讨论内容
今天美国东部时间下午6点,我会和@sckimbriel一起在纽约,参加@aspeninstitute举办的关于人工智能与社会未来的对话活动。
我们会讨论RSI、AI进步所预示的未来,以及这项技术发展过程中我们需要考虑的选择。
可在这里观看直播:
做通用知识智能体研究的从业者,可以关注这场新分享的内容。
在人工智能分析机构的智力指数榜单里,它得分51,仅落后于几个闭源模型,是目前排名最高的可公开权重模型。
GLM-5.2 是 Artificial Analysis 智力指数中排名领先的开放权重模型,得分 51,仅落后于 Fable 5 的 60 分、Opus 4.8 的 56 分,以及 GPT-5.5 的 55 分(数据来自 Artificial Analysis)(链接和完整背景请访问 Techmeme dot com!)
📅 ThursdAI——6月18日——美国政府封禁 Fable,GLM 5.2 成为顶尖开源模型,Cursor 估值 600 亿美元,以及更多 AI 新闻
目前顶尖模型完成这类任务的表现还不算好,但测试方向已经从简单问答转向长期复杂任务,接下来很快会推进到需要几个月完成的工作了。
我之前一直批评 Anthropic 的智能体评估工作,但这次的基准测试看起来做得很好,令人印象深刻:它针对的是不饱和、拥有私有预留测试集的真实世界知识工作。这个方向值得关注——不过我没看到人类对比得分?
我们现在已经开始在需要人类花好几周才能完成的任务上对模型做基准测试了。哪怕最好的模型表现仍然不算出色,但我们现在已经能开展这类测试这件事本身就很说明问题。
感觉我们距离让AI处理耗时数月、数年,乃至一整个职业生涯长度的任务已经不远了。「AI能完成任务但不能胜任工作」这个观点很快就站不住脚了。
有意思的还有 GLM-5.2 得分仅次于 Anthropic 的最佳模型,还超过了 GPT-5.5。我们可以等等看 GPT-5.6 推出后情况会不会变,但这已经能证明 GLM-5.2 有多优秀,也说明它对开放权重模型来说是一项重要进展。
现在大家用的AI大多还是单点工具,有人讨论未来的方向是发展自主AI,最终会变成能和人类一起干活的协作角色。
现在有可视化界面能直接连接Hermes模型和Ollama,不用再对着黑框输命令就能跑本地AI。
现在你可以把 Hermes 直接连接到 Ollama,通过可视化桌面界面运行本地 AI 模型,无需再使用终端。
不用再面对黑屏了。
不用再摆弄各种命令了。
成本优势不会只停留在单个模型上,整套技术出口的话,成本优势会覆盖更多环节。
更有意思的问题是,如果中国不只是出口AI模型,而是出口整套AI技术栈,会发生什么。成本优势并不只停留在模型层面。它最终会体现在芯片、基础设施软件、数据中心设计、能耗,以及高效运行整套系统所需的运营经验上。
中国拥有强烈的动力去优化全系统成本,因为它可用资本更少,获得前沿硬件的渠道也更有限。如果中国模型获得全球采用,其余技术栈也可能随之跟进。使用这些模型的企业,可能会越来越多地使用配套工具、基础设施和硬件。
更多部署带来更多优化,更大规模进一步拉低成本。最终会形成一个飞轮,从模型 adoption 延伸到整个技术栈的 adoption。
从历史来看,更低的成本不会降低需求,反而会扩大需求。更便宜的算力让我们拥有了更多算力,更便宜的存储让我们拥有了更多存储。最终赢家可能不是造出最智能模型的那一方,而是能以最低全系统成本提供智能服务的那一方。
目前这一切还没有发生,因为行业仍处于早期阶段。技术进步太快,没人能完全确定最终产品、商业模式和需求曲线会是什么样。但如果AI最终成为一种公用事业,整个技术栈的成本效率,其重要性可能会和模型本身的质量不相上下。
做产品的人用OpenAI的Codex调度多个智能体,调研开发工具公司的优势,用来优化自己的产品。
我让 Codex 调度了一组智能代理,去调研最优秀的开发工具公司究竟在哪些地方做得非常出色——这样我们就能把 @orca_build 做得更好。
(它显示“本地 Mac”是因为我有时候也会在虚拟机里运行代理。今天我只用本地机器,因为我终于拿到一台 128GB 的了 😄)
Welch Labs指出,再多投入也没法突破这个天花板,不用盲目追着更大的AI模型投入成本
从Google Brain到现在Sakana AI的研究,这些早期 foundation 一直影响着研究者的思考方向
1991 年,Transformers、预训练、蒸馏和世界模型的基础就已经在构建当中了。
这些成果塑造了我个人的思考路径,从我在 Google Brain 的任职时期,一直延续到我们今天在@SakanaAILabs 开展的递归自我优化(Recursive Self-Improvement, RSI)工作中。🧠🗼 👇
目前Cerebras已经适配GLM-4.7,Groq目前主要运行Llama 3.x和GPT-OSS。想要更快推理GLM 5.2还得等。
我非常期待 @GroqInc 或 @cerebras 这类超快定制硅推理服务商,能把 GLM 5.2 跑起来。
目前 Cerebras 已经支持 GLM-4.7,Groq 上面还基本只有 Llama 3.x 和 gpt-oss。
做网页AI代理的开发者可以参考,现有方法难以让学会的技能在新网站复用,新方法能让同一交互模式的技能跨站通用。
如果你正在开发网页智能体,这篇内容值得你花时间了解。它主题是如何实现智能体技能的可复用性。(记得收藏)
LLM网页智能体通常以工具调用者的身份运行。每一轮交互中,模型都会读取一个新页面,输出一个低级动作,因此无论是视野范围还是面向策略的LLM补全,在Mind2Web和WebArena这类基准测试上表现都很差。
技能库本应通过将重复片段封装为可调用工具来解决这个问题,但现有方案是基于指令相似度或网站元数据触发复用,在未见过的网站上几乎无法生效。
这项工作改用可迁移交互模式来路由技能复用,因此在一个网站上学到的技能,可以在拥有相同交互形态的新网站上触发生效。这就在按域名检索失效的场景下提升了复用效果。
为什么这很重要?搜索、筛选、翻页的操作逻辑在不同网站上都是相同的。将它抽象为模式匹配的技能,可以让网页智能体技能泛化到训练时所用网站之外的场景。
论文链接:
在我们的学院中学习如何构建有效的AI智能体:
HyperWriteAI 早在几年前就做出来具备计算机使用能力的Agent-1 CUA模型,现在才被提起
有人亲眼见证这件事,普通开发者不用再纠结本地模型能不能做硬核开发,直接看结果。
有人实际测试了这个AI,它待在频道里做工作,还会主动规划下一步,可以看看这和普通AI工具的区别
Microsoft Teams 刚迎来了它的首位AI员工。我已经测试过了。
这是一个真正的AI员工,驻留在频道里,能完成工作,还能提议下一步行动。
它不是又一个prompt输入框。值得一看。@viktor__com
这份教程讲了深度智能体框架,怎么通过原生人工介入原语实现控制,想搭智能体可以去看
Deep Agents 深度解析第四部分 | 操控:@sydneyrunkle 讲解 Deep Agents 线束如何通过一流的人工介入(HITL)原语来支持操控。
建议认为AI界面直观的人教三人使用,会发现其使用障碍
任何觉得AI界面(聊天机器人、Codex、Code、NotebookLM等)直观好上手的人,都应该花时间给另外三个人讲解怎么用这些工具。
我保证你会发现,要得到一个好结果,有十几个小技巧和陷阱,这些都是挡在用户面前的路障。
我认为我提出的「用AI处理真实任务累计10小时」的规律是对的,但很多人连第一个小时都熬不过,还没摸清这些系统能做什么,就已经把它们框死在一个小标签里了——「有点像Google」。
LoRA SFT微调后开源通义千问性能可匹配或超过前沿大模型
对开源模型微调可以达到甚至超过前沿模型的水平。
📦开箱即用的Base @Alibaba_Qwen,搭配良好提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。
🔧经过一次LoRA SFT训练后:微调后的两个模型性能都接近甚至超过了前沿模型水平。
LangChain最新指南探讨摩根大通等机构金融智能体落地路径
金融服务领域智能体开发的下一阶段,将以信任、可控性和生产就绪程度作为衡量标准。
在我们的最新指南中,我们介绍了@jpmorgan、@Chime和Bridgewater如何在研究、用户体验和投资工作流中部署生产级智能体。
omarsar0指出通用模型在复杂结构处理等领域仍存在不足,科研中专用模型表现更优
这是一份推荐阅读内容,其中提出了不少有价值的见解,尤其聚焦在通用模型仍存在能力缺陷的领域,比如处理复杂结构这类任务。
内容同时强调,在科学研究领域,专用模型已经取得了非常突出的成果。
当前各类任务都需要由智能体自行梳理解决,并整合现有技术。未来将会出现更多专用大语言模型,能更高效地吸收不同类型的信息。
omarsar0因此支持全智能体理念,也就是由多个不同智能体组合协同工作。
用户输入简短任务描述,Fleet可跨团队日常应用完成规划执行,点击即可生成AI代理
用户只需用简短提示描述任务,Fleet就能完成任务规划、执行操作。Fleet可以在团队日常使用的各类应用之间协同工作。
只需点击几次,就能把一段对话转换为可工作的AI代理。
目前已经开放试用,用户可以立即开始构建自己的AI代理。
开发者称GLM 5.2性能对标头部闭源模型,仅不支持图像处理
哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8、GPT 5.5 一样好。
它速度超快,价格低廉,也不会过于啰嗦。它的回答充满细节分寸和判断,而且处理长上下文非常出色。我从未见过这样的开源权重模型。
它目前最大的短板是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它说不定会成为全球现有的最强模型。
顺便说一句,我是用 @FireworksAI_HQ 做推理的。其他供应商可能没这么快。
Benchling AI负责人提出理解LLM更接近生物学而非软件工程
AI领域知名人士Jeremy Howard公开评价GLM 5.2并推荐推理服务商
哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8 以及 GPT 5.5 一样优秀。它速度超快、价格便宜,而且不会过度冗长。
它的回答富有层次感和判断力,处理长上下文的表现非常出色。我之前从未用过这么优秀的开放权重模型。
它现存的一个大缺陷是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它很可能会成为世界上最好用的模型。
顺便一提,我一直用 @FireworksAI_HQ 做推理。其他提供商可能没有这么快。
Claude新增企业级托管认证MCP扩展,联合多工具开启Beta测试
我们已经为 MCP 添加了 Enterprise-Managed Auth 扩展支持。管理员可以为他们的组织集中授权 MCP 连接器,这样用户第一次登录时,所有需要的工具和数据就都已经连接好了。
它通过你的身份提供商集中授权:用户不需要逐个应用配置 OAuth 或进行设置,管理员也能获得更严格、更高效的控制。
目前处于 beta 测试阶段,支持 Okta,以及来自 Asana、Atlassian、Canva、Figma、Granola、Linear、Slack 和 Supabase 的连接器,Slack 支持很快推出。在 Claude chat、Claude Code 和 Cowork 中,访问权限保持一致。阅读公告:
它构建在一个 MCP 扩展之上,任何客户端、服务器或 IdP 都可以采用。如果你有兴趣了解更多或采用它,请点击这里阅读:
海外社交平台流出GPT 5.6的核心能力泄露信息
如果这些泄露信息属实,那GPT 5.6就是一次巨大飞跃:
→ 每个对话150万词内存
→ 上下文处理能力比旧模型提升10倍以上
→ 支持多步骤自主智能体
→ 即时生成网站
→ 内置推理速度模式
规律很清晰:AI正从「响应」转变为「执行」。
收藏这条视频,你会看到它未来的发展方向。完整指南在AI Profit Boardroom内部。私信我。💬
想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉
爆料GPT 5.6技术升级方向,博主推广AI盈利相关课程
如果这些泄露信息属实,那 GPT 5.6 将是一次巨大飞跃:
→ 单对话 150万词上下文记忆
→ 上下文容量是旧模型的10倍以上
→ 支持多步骤自主智能体
→ 一键生成网站
→ 内置推理速度模式
趋势非常清晰:AI正在从「响应请求」走向「执行任务」。
收藏这条视频,你会看到它最终通向何处。完整指南在 AI Profit Boardroom 内。私信我。💬
想要用 AI 赚钱、节省时间?获取 AI 指导、支持与课程 👉
免费获取一门 AI 课程 + 1000个全新 AI 智能体 👉
博文介绍Claude Managed Agents及其解决的Agent落地生产痛点
团队如何将智能代理投入生产?我们的Applied AI团队发布了一篇新博客,介绍Claude Managed Agents,以及它能解决的各类挑战(凭证管理、沙箱、可观测性等等)……
这篇博客分享了团队选择基于Claude Managed Agents构建的常见原因、多个案例研究,以及入门的实用技巧:
LoRA监督微调后,开源通义千问性能接近或超越前沿模型
对开源模型微调可以达到甚至超过前沿模型的水平。
📦开箱即用的Base @Alibaba_Qwen 搭配优质提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。
🔧经过LoRA监督微调后:两款模型的性能都接近甚至超过了前沿水平。
Anthropic分析40万次会话,公布Claude Code使用价值与成功规律
分步讲解搭建协同AI智能体团队的具体操作流程
如何打造一支协作AI智能体团队:
- 搭建你第一个偏好的智能体(它就是你的编排器)
- 让它配置 Gemini Managed Agents 或类似 modal cpu 实例的服务,在独立环境中启动子智能体
- 启动一项深度研究任务,调研管理智能体团队的最佳实践:包括最佳分工、各分工所需技能,以及团队管理、交叉沟通和规划方法
- 让智能体应用研究得出的最佳建议
- 循环重复这个过程(如需可逐步增加智能体数量)
对于你的团队:
- 给他们一个空仓库,向他们发起构建项目的挑战,建立最佳实践,让智能体观察问题,提出智能体管理的修复方案并快速迭代(这个过程会梳理出竞态条件、规划方案等各类问题)
爆料称OpenAI在内部系统日志中意外泄露了GPT 5.6
🚨 OpenAI 意外在自家系统日志中泄露了 GPT 5.6,相关细节非常惊人。
150万词的记忆容量。自主AI智能体。可变思考速度。仅凭一句话就能生成看起来和人工制作无异的网站。
这不只是一次更新。这是一种完全不同的AI。
想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉
精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。