AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 6 月 19 日 19:04 更新 00 信号0 主题
试试:
今日焦点

亚马逊考虑对外出售自研AI芯片,英伟达或遇挑战

亚马逊旗下云服务AWS正在洽谈对外出售自研AI芯片Trainium,用于数据中心。AWS AI负责人Peter DeSantis向彭博社证实了这一谈判,但拒绝透露潜在买家。

这相当于在AI算力市场引入一个能跟英伟达掰手腕的新选项。英伟达当前收入运行率约为3260亿美元,在AI芯片市场占绝对主导。

亚马逊之前一直抵制出售芯片,核心原因是商业模式问题。AWS从芯片上赚钱的方式是一种“瀑布效应”:客户在AWS云上用芯片生成token,不仅为芯片付钱,还要为存储、安全、网络、监控等配套服务付费。一旦把芯片单独卖出去,这笔捆绑收入就没了。

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

工具 · @gdb▲ 2.2万

有开发者实测说Codex这个AI应用真的很好用

没有更多细节评价,只有一句直接使用体验,目前OpenAI在新加坡Grab举办了Codex开发者见面会

Codex app 非常棒。

@OpenAI codex 见面会在 @GrabSG 举办!活动马上就要开始了!

在 X 看原帖 ↗
2.2万1122953
商业 · @AnthropicAI▲ 13.8万

Anthropic发布Claude Code最新经济研究报告

Anthropic分析40万次会话,公布Claude Code使用价值与成功规律

阅读全文 →
13.8万32470137
大模型 · @LangChain▲ 4.8K

LangChain研究显示微调通义千问开源模型可匹敌前沿模型

LoRA监督微调后,开源通义千问性能接近或超越前沿模型

对开源模型微调可以达到甚至超过前沿模型的水平。

📦开箱即用的Base @Alibaba_Qwen 搭配优质提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。

🔧经过LoRA监督微调后:两款模型的性能都接近甚至超过了前沿水平。

在 X 看原帖 ↗
4.8K83014
产品发布 · @ClaudeDevs▲ 39.4万

Anthropic应用AI团队发布Claude托管代理新博文

博文介绍Claude Managed Agents及其解决的Agent落地生产痛点

团队如何将智能代理投入生产?我们的Applied AI团队发布了一篇新博客,介绍Claude Managed Agents,以及它能解决的各类挑战(凭证管理、沙箱、可观测性等等)……

这篇博客分享了团队选择基于Claude Managed Agents构建的常见原因、多个案例研究,以及入门的实用技巧:

在 X 看原帖 ↗
39.4万2653.5K3.3K
前沿研究 · @emollick▲ 9.6K

用正向数据训练AI,居然能整体变听话

已有研究证实,用不良数据训练AI会让全模型失控。现在证实反向结论也成立,单领域正向训练数据能让全任务模型更合规

有论文显示,用“邪恶”数据训练AI会导致全面不对齐,所以知道相反的结论成立是件好事:在单个领域加入有益的RL数据,能让模型在一系列任务上都变得更对齐。

在 X 看原帖 ↗
9.6K37023
产品发布 · @ClaudeDevs▲ 5.1万

Anthropic Claude推出企业托管认证MCP扩展开启Beta测试

Claude新增企业级托管认证MCP扩展,联合多工具开启Beta测试

我们已经为 MCP 添加了 Enterprise-Managed Auth 扩展支持。管理员可以为他们的组织集中授权 MCP 连接器,这样用户第一次登录时,所有需要的工具和数据就都已经连接好了。

它通过你的身份提供商集中授权:用户不需要逐个应用配置 OAuth 或进行设置,管理员也能获得更严格、更高效的控制。

目前处于 beta 测试阶段,支持 Okta,以及来自 Asana、Atlassian、Canva、Figma、Granola、Linear、Slack 和 Supabase 的连接器,Slack 支持很快推出。在 Claude chat、Claude Code 和 Cowork 中,访问权限保持一致。阅读公告:

它构建在一个 MCP 扩展之上,任何客户端、服务器或 IdP 都可以采用。如果你有兴趣了解更多或采用它,请点击这里阅读:

在 X 看原帖 ↗
5.1万1117673
大模型 · @jeremyphoward▲ 1.4万

AI专家Jeremy评价GLM 5.2比肩头部闭源大模型

AI领域知名人士Jeremy Howard公开评价GLM 5.2并推荐推理服务商

哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8 以及 GPT 5.5 一样优秀。它速度超快、价格便宜,而且不会过度冗长。

它的回答富有层次感和判断力,处理长上下文的表现非常出色。我之前从未用过这么优秀的开放权重模型。

它现存的一个大缺陷是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它很可能会成为世界上最好用的模型。

顺便一提,我一直用 @FireworksAI_HQ 做推理。其他提供商可能没有这么快。

在 X 看原帖 ↗
1.4万813745
大模型 · @jeremyphoward▲ 16.6万

AI开发者Jeremy Howard盛赞Zai GLM 5.2大模型性能

开发者称GLM 5.2性能对标头部闭源模型,仅不支持图像处理

哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8、GPT 5.5 一样好。

它速度超快,价格低廉,也不会过于啰嗦。它的回答充满细节分寸和判断,而且处理长上下文非常出色。我从未见过这样的开源权重模型。

它目前最大的短板是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它说不定会成为全球现有的最强模型。

顺便说一句,我是用 @FireworksAI_HQ 做推理的。其他供应商可能没这么快。

在 X 看原帖 ↗
16.6万1652.5K607
行业动态 · @jackclarkSF▲ 8.3K

今天有一场公开对谈聊AI进步后的未来选择

感兴趣可以点击链接观看这场直播,直接了解讨论内容

今天美国东部时间下午6点,我会和@sckimbriel一起在纽约,参加@aspeninstitute举办的关于人工智能与社会未来的对话活动。

我们会讨论RSI、AI进步所预示的未来,以及这项技术发展过程中我们需要考虑的选择。

可在这里观看直播:

在 X 看原帖 ↗
8.3K44321
行业动态 · @rasbt▲ 4.4K

新增优化机制后,长文本推理成本大幅降低了

新开源权重模型GLM-5.2沿用已有注意力机制,新增IndexShare机制让100万词元推理成本降低很多

刚了解完最新的 GLM-5.2 发布。它是目前最好的开放权重模型。

架构上,它构建于我之前介绍过的 GLM-5 和 GLM-5.1 架构之上,这意味着它复用了 DeepSeek V3.2 的多头潜在注意力(MLA)和 DeepSeek 稀疏注意力(DSA)机制。(我之前在这里写过相关内容:)

新增的内容是他们加入了 IndexShare 机制。

这是给 DSA 做的跨层复用技巧:GLM-5.2 不再需要每一层都重新计算稀疏注意力的 top-k 索引,而是每四层才完整运行一次索引器,让后续几层复用选出的 token 索引。

这套方案保留了原 DSA 的核心思路,同时让 1M-token 推理的成本大幅降低。

在 X 看原帖 ↗
4.4K2212473
实战经验 · @mattshumer_▲ 1.5万

这个AI agent方案,有人几年前就做出来了

HyperWriteAI 早在几年前就做出来具备计算机使用能力的Agent-1 CUA模型,现在才被提起

我们多年前就在 @HyperwriteAI 用我们的 Agent-1 CUA 模型做过这个了。只是我们做得早了一点点 :)

在 X 看原帖 ↗
1.5万33915
用户体验 · @emollick▲ 3.8万

行业人士观点:AI交互界面并不直观易用

建议认为AI界面直观的人教三人使用,会发现其使用障碍

任何觉得AI界面(聊天机器人、Codex、Code、NotebookLM等)直观好上手的人,都应该花时间给另外三个人讲解怎么用这些工具。

我保证你会发现,要得到一个好结果,有十几个小技巧和陷阱,这些都是挡在用户面前的路障。

我认为我提出的「用AI处理真实任务累计10小时」的规律是对的,但很多人连第一个小时都熬不过,还没摸清这些系统能做什么,就已经把它们框死在一个小标签里了——「有点像Google」。

在 X 看原帖 ↗
3.8万40722147
观点 · @Vivek4real_

有人说AI不会抢你工作,只会让富人更富

这句话出自美国参议员JD Vance,AI会放大富人已经拥有的资源优势,普通人暂时还没找到能分到收益的明确路径

JD VANCE:AI不会抢走你的工作,但它会让富人变得巨富 “AI不会抢走你的工作……但它会让富人变得巨富”

在 X 看原帖 ↗
大模型 · @JulianGoldieSEO

国产GLM 5.2现场比赢了OpenAI Opus 4.8?

直播开发 Temple Run 风格跑酷游戏,GLM做出来的画面更好、运行更流畅,最终得分让测试者非常意外

GLM 5.2 刚刚在一场实时构建对决中完虐了 Opus 4.8。最终比分让我震惊。

游戏测试:
→ GLM 5.2 构建出了最好的 Temple Run 风格无尽跑酷游戏
→ 视觉效果、游戏流畅度、可玩性都优于另外两名竞争者
→ Opus 4.8 产出的版本质量最差

模拟测试:
✓ Kimi K2.7 赢下了太阳系模拟器项目
✓ 支持缩放控制、速度控制、轨道轨迹
✓ 交互性比 GLM 5.2 和 Opus 4.8 都更强

创意构建:
✔ GLM 5.2 赢下了液态元球模拟项目
✔ GLM 5.2 构建出了效果最好的苹果风格着陆页
✔ GLM 5.2 创作了最容易让人上瘾的霓虹街机游戏

最终比分:
→ GLM 5.2 在 5 项测试中赢下 4 项
→ Kimi K2.7 赢下 1 项测试
→ Opus 4.8 没有赢下任何一个分类

最有意思的点是什么?这个最新模型根本没有做公开 benchmark 炒作。它只是拿出了更好的结果。

在 X 看原帖 ↗
前沿研究 · @NielsRogge▲ 172

研究论文公开,还附了可直接用的代码

方便普通人自行探索 JEPA 与世界模型相关研究,不需要从零开始找资源

我添加了这篇论文,以便更多人可以探索这项工作。在这里你可以找到代码、关联的 @huggingface 工件,还可以了解 JEPA 和世界模型。

在 X 看原帖 ↗
172
新品发布 · @WesRoth

xAI的Grok模型,现在企业也能直接用了

做企业级AI智能体的团队,可以直接在Databricks Agent Bricks平台调用Grok模型了

xAI 在 Databricks Agent Bricks 上发布了 Grok 模型,扩大了这些模型在企业级 AI 代理中的可用范围。

在 X 看原帖 ↗
深度观点 · @hardmaru▲ 2.5K

1991年就铺好了现在AI的核心理论基础

从Google Brain到现在Sakana AI的研究,这些早期 foundation 一直影响着研究者的思考方向

1991 年,Transformers、预训练、蒸馏和世界模型的基础就已经在构建当中了。

这些成果塑造了我个人的思考路径,从我在 Google Brain 的任职时期,一直延续到我们今天在@SakanaAILabs 开展的递归自我优化(Recursive Self-Improvement, RSI)工作中。🧠🗼 👇

在 X 看原帖 ↗
2.5K6201
行业动态 · @zephyr_z9▲ 1.5K

目前全球最大规模的编码训练数据生成项目出现了

项目团队目前专注于编码领域,并且已经拥有所需的算力支持。

他们目前似乎专注于代码领域。我很确定,这是目前全球规模最大的代码训练数据生成项目。他们拥有足够的算力。

在 X 看原帖 ↗
1.5K4
前沿研究 · @TheAhmadOsman▲ 558

6亿参数模型赢过了三千多亿参数的大模型

小而专的模型已经能打败更大更强的模型

6亿参数模型击败了3970亿参数模型,还有 Sonnet 4.5。

小型专业化模型万岁。

在 X 看原帖 ↗
5582207
深度观点 · @realBigBrainAI▲ 243

砸越多钱AI不一定越聪明,原来还有硬天花板

Welch Labs指出,再多投入也没法突破这个天花板,不用盲目追着更大的AI模型投入成本

Welch Labs 揭示了为什么给 AI 砸更多钱不总能让它变得更聪明。存在一道任何模型都无法跨越的硬上限。

来源:Welch Labs

在 X 看原帖 ↗
24312121
动态 · @JulianGoldieSEO▲ 156

OpenAI系统日志意外泄露GPT 5.6相关配置信息

爆料称OpenAI在内部系统日志中意外泄露了GPT 5.6

🚨 OpenAI 意外在自家系统日志中泄露了 GPT 5.6,相关细节非常惊人。

150万词的记忆容量。自主AI智能体。可变思考速度。仅凭一句话就能生成看起来和人工制作无异的网站。

这不只是一次更新。这是一种完全不同的AI。

想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉

在 X 看原帖 ↗
1562
智能体 · @fofrAI▲ 597

教程:如何搭建一个可协同工作的AI智能体团队

分步讲解搭建协同AI智能体团队的具体操作流程

如何打造一支协作AI智能体团队:
- 搭建你第一个偏好的智能体(它就是你的编排器)
- 让它配置 Gemini Managed Agents 或类似 modal cpu 实例的服务,在独立环境中启动子智能体
- 启动一项深度研究任务,调研管理智能体团队的最佳实践:包括最佳分工、各分工所需技能,以及团队管理、交叉沟通和规划方法
- 让智能体应用研究得出的最佳建议
- 循环重复这个过程(如需可逐步增加智能体数量)

对于你的团队:
- 给他们一个空仓库,向他们发起构建项目的挑战,建立最佳实践,让智能体观察问题,提出智能体管理的修复方案并快速迭代(这个过程会梳理出竞态条件、规划方案等各类问题)

在 X 看原帖 ↗
59736
深度观点 · @simonw▲ 149

为啥快硅推理厂商还没跑上新GLM模型?

目前Cerebras已经适配GLM-4.7,Groq目前主要运行Llama 3.x和GPT-OSS。想要更快推理GLM 5.2还得等。

我非常期待 @GroqInc 或 @cerebras 这类超快定制硅推理服务商,能把 GLM 5.2 跑起来。

目前 Cerebras 已经支持 GLM-4.7,Groq 上面还基本只有 Llama 3.x 和 gpt-oss。

在 X 看原帖 ↗
14942
大模型 · @JulianGoldieSEO▲ 44

网传GPT 5.6性能大幅提升 博主推广AI盈利课程 coaching

爆料GPT 5.6技术升级方向,博主推广AI盈利相关课程

如果这些泄露信息属实,那 GPT 5.6 将是一次巨大飞跃:

→ 单对话 150万词上下文记忆
→ 上下文容量是旧模型的10倍以上
→ 支持多步骤自主智能体
→ 一键生成网站
→ 内置推理速度模式

趋势非常清晰:AI正在从「响应请求」走向「执行任务」。
收藏这条视频,你会看到它最终通向何处。完整指南在 AI Profit Boardroom 内。私信我。💬

想要用 AI 赚钱、节省时间?获取 AI 指导、支持与课程 👉
免费获取一门 AI 课程 + 1000个全新 AI 智能体 👉

在 X 看原帖 ↗
441
动态 · @JulianGoldieSEO▲ 108

网传GPT 5.6泄露信息称支持150万词单聊天记忆

海外社交平台流出GPT 5.6的核心能力泄露信息

如果这些泄露信息属实,那GPT 5.6就是一次巨大飞跃:
→ 每个对话150万词内存
→ 上下文处理能力比旧模型提升10倍以上
→ 支持多步骤自主智能体
→ 即时生成网站
→ 内置推理速度模式

规律很清晰:AI正从「响应」转变为「执行」。
收藏这条视频,你会看到它未来的发展方向。完整指南在AI Profit Boardroom内部。私信我。💬

想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉

在 X 看原帖 ↗
1081
大语言模型 · @LangChain▲ 5.0K

Benchling AI负责人称理解大语言模型更接近生物学

Benchling AI负责人提出理解LLM更接近生物学而非软件工程

.@benchling 人工智能主管 @nlarusstone 谈为什么理解大语言模型更接近生物学,而非软件工程。

在 X 看原帖 ↗
5.0K63512
大模型 · @Techmeme▲ 2.3K

国产开源大模型GLM-5.2拿到公开权重榜第一了

在人工智能分析机构的智力指数榜单里,它得分51,仅落后于几个闭源模型,是目前排名最高的可公开权重模型。

GLM-5.2 是 Artificial Analysis 智力指数中排名领先的开放权重模型,得分 51,仅落后于 Fable 5 的 60 分、Opus 4.8 的 56 分,以及 GPT-5.5 的 55 分(数据来自 Artificial Analysis)(链接和完整背景请访问 Techmeme dot com!)

📅 ThursdAI——6月18日——美国政府封禁 Fable,GLM 5.2 成为顶尖开源模型,Cursor 估值 600 亿美元,以及更多 AI 新闻

在 X 看原帖 ↗
2.3K3151
研究 · @emollick▲ 2.1K

AI已经开始 benchmark 人类要花几周做的工作了

目前顶尖模型完成这类任务的表现还不算好,但测试方向已经从简单问答转向长期复杂任务,接下来很快会推进到需要几个月完成的工作了。

我之前一直批评 Anthropic 的智能体评估工作,但这次的基准测试看起来做得很好,令人印象深刻:它针对的是不饱和、拥有私有预留测试集的真实世界知识工作。这个方向值得关注——不过我没看到人类对比得分?

我们现在已经开始在需要人类花好几周才能完成的任务上对模型做基准测试了。哪怕最好的模型表现仍然不算出色,但我们现在已经能开展这类测试这件事本身就很说明问题。

感觉我们距离让AI处理耗时数月、数年,乃至一整个职业生涯长度的任务已经不远了。「AI能完成任务但不能胜任工作」这个观点很快就站不住脚了。

有意思的还有 GLM-5.2 得分仅次于 Anthropic 的最佳模型,还超过了 GPT-5.5。我们可以等等看 GPT-5.6 推出后情况会不会变,但这已经能证明 GLM-5.2 有多优秀,也说明它对开放权重模型来说是一项重要进展。

在 X 看原帖 ↗
2.1K162
观点 · @MichaelGannotti▲ 23

AI下一步会从工具变成和你协作的同事

现在大家用的AI大多还是单点工具,有人讨论未来的方向是发展自主AI,最终会变成能和人类一起干活的协作角色。

在这期 Michael on the Go 节目中,我聊了 AI 工具与自主 AI 的区别,以及我们正从工具时代走向拥有协作同事与雇员的时代。

在 X 看原帖 ↗
2311
工具 · @JulianGoldieSEO

本地跑大模型不用再跟命令行折腾了

现在有可视化界面能直接连接Hermes模型和Ollama,不用再对着黑框输命令就能跑本地AI。

现在你可以把 Hermes 直接连接到 Ollama,通过可视化桌面界面运行本地 AI 模型,无需再使用终端。

不用再面对黑屏了。

不用再摆弄各种命令了。

在 X 看原帖 ↗
商业 · @ruima▲ 71

如果中国不光出口AI模型,还出口整套AI技术栈呢

成本优势不会只停留在单个模型上,整套技术出口的话,成本优势会覆盖更多环节。

更有意思的问题是,如果中国不只是出口AI模型,而是出口整套AI技术栈,会发生什么。成本优势并不只停留在模型层面。它最终会体现在芯片、基础设施软件、数据中心设计、能耗,以及高效运行整套系统所需的运营经验上。

中国拥有强烈的动力去优化全系统成本,因为它可用资本更少,获得前沿硬件的渠道也更有限。如果中国模型获得全球采用,其余技术栈也可能随之跟进。使用这些模型的企业,可能会越来越多地使用配套工具、基础设施和硬件。

更多部署带来更多优化,更大规模进一步拉低成本。最终会形成一个飞轮,从模型 adoption 延伸到整个技术栈的 adoption。

从历史来看,更低的成本不会降低需求,反而会扩大需求。更便宜的算力让我们拥有了更多算力,更便宜的存储让我们拥有了更多存储。最终赢家可能不是造出最智能模型的那一方,而是能以最低全系统成本提供智能服务的那一方。

目前这一切还没有发生,因为行业仍处于早期阶段。技术进步太快,没人能完全确定最终产品、商业模式和需求曲线会是什么样。但如果AI最终成为一种公用事业,整个技术栈的成本效率,其重要性可能会和模型本身的质量不相上下。

在 X 看原帖 ↗
712
经验 · @JinjingLiang▲ 13

有人让AI调度一批智能体帮自己调研竞品做得好的地方

做产品的人用OpenAI的Codex调度多个智能体,调研开发工具公司的优势,用来优化自己的产品。

我让 Codex 调度了一组智能代理,去调研最优秀的开发工具公司究竟在哪些地方做得非常出色——这样我们就能把 @orca_build 做得更好。

(它显示“本地 Mac”是因为我有时候也会在虚拟机里运行代理。今天我只用本地机器,因为我终于拿到一台 128GB 的了 😄)

在 X 看原帖 ↗
131
实战经验 · @omarsar0▲ 1.3K

微软Teams迎来首个常驻AI员工,不是加个对话框

有人实际测试了这个AI,它待在频道里做工作,还会主动规划下一步,可以看看这和普通AI工具的区别

Microsoft Teams 刚迎来了它的首位AI员工。我已经测试过了。

这是一个真正的AI员工,驻留在频道里,能完成工作,还能提议下一步行动。

它不是又一个prompt输入框。值得一看。@viktor__com

在 X 看原帖 ↗
1.3K1103
新品发布 · @LangChain▲ 1.2K

@LangChain: 🎧 Brand new Max Agency with @hwchase17

🎧 Brand new Max Agency with @hwchase17 + @ZackRW

🎧 全新 Max Agency,由 @hwchase17 + @ZackRW 打造

在 X 看原帖 ↗
1.2K151
行业动态 · @jerryjliu0▲ 1.6K

分享通用知识智能体新演讲,聚焦现代上下文层

做通用知识智能体研究的从业者,可以关注这场新分享的内容。

我为 DAIS 2026 准备了一场关于通用知识智能体与现代上下文层的新演讲 🔥 快来看看!

在 X 看原帖 ↗
1.6K132
实战经验 · @LangChain▲ 1.3K

深度智能体教程第四弹,教你人工介入控制

这份教程讲了深度智能体框架,怎么通过原生人工介入原语实现控制,想搭智能体可以去看

Deep Agents 深度解析第四部分 | 操控:@sydneyrunkle 讲解 Deep Agents 线束如何通过一流的人工介入(HITL)原语来支持操控。

在 X 看原帖 ↗
1.3K1112
深度观点 · @dair_ai▲ 328

解决了网页AI代理跨站技能复用的老问题

做网页AI代理的开发者可以参考,现有方法难以让学会的技能在新网站复用,新方法能让同一交互模式的技能跨站通用。

如果你正在开发网页智能体,这篇内容值得你花时间了解。它主题是如何实现智能体技能的可复用性。(记得收藏)

LLM网页智能体通常以工具调用者的身份运行。每一轮交互中,模型都会读取一个新页面,输出一个低级动作,因此无论是视野范围还是面向策略的LLM补全,在Mind2Web和WebArena这类基准测试上表现都很差。

技能库本应通过将重复片段封装为可调用工具来解决这个问题,但现有方案是基于指令相似度或网站元数据触发复用,在未见过的网站上几乎无法生效。

这项工作改用可迁移交互模式来路由技能复用,因此在一个网站上学到的技能,可以在拥有相同交互形态的新网站上触发生效。这就在按域名检索失效的场景下提升了复用效果。

为什么这很重要?搜索、筛选、翻页的操作逻辑在不同网站上都是相同的。将它抽象为模式匹配的技能,可以让网页智能体技能泛化到训练时所用网站之外的场景。

论文链接:
在我们的学院中学习如何构建有效的AI智能体:

在 X 看原帖 ↗
32866
新品发布 · @LangChain▲ 1.1K

构建AI代理变简单了,投产还是难?这里出了新方案

做AI代理的团队不用再重复搭建运行环境,可以把精力集中在调整代理行为上

构建有用的智能代理正变得越来越容易,但在生产环境中运行它们依然很难。

我们打造了 Managed Deep Agents,让你的团队可以专注于代理的行为,而非反复重构它周围的运行时环境。

在 X 看原帖 ↗
1.1K295
实战经验 · @victormustar▲ 3.1K

顶尖开发者用27B本地模型写最常用推理引擎

有人亲眼见证这件事,普通开发者不用再纠结本地模型能不能做硬核开发,直接看结果。

我亲眼见过🐐(史上最佳)用一个27B的本地模型,来编写目前最常用的推理引擎……你还有什么借口?

在 X 看原帖 ↗
3.1K2227
行业动态 · @ns123abc▲ 308

谷歌DeepMind称,到2030年AI能给美国 economy 增2.9万亿

谷歌DeepMind明确说,AI不是泡沫,可以参考这份官方给出的判断

🚨Google DeepMind:到2030年,AI智能体可为美国经济增加2.9万亿美元产值

顺便说一句,AI不是泡沫

在 X 看原帖 ↗
3083173
开发工具 · @LangChain▲ 4.4K

LangChain推出Fleet:短提示即可生成AI代理工作流

用户输入简短任务描述,Fleet可跨团队日常应用完成规划执行,点击即可生成AI代理

用户只需用简短提示描述任务,Fleet就能完成任务规划、执行操作。Fleet可以在团队日常使用的各类应用之间协同工作。

只需点击几次,就能把一段对话转换为可工作的AI代理。

目前已经开放试用,用户可以立即开始构建自己的AI代理。

在 X 看原帖 ↗
4.4K3268
大语言模型 · @omarsar0▲ 4.3K

用户omarsar0推荐通用模型失效领域的AI研究见解

omarsar0指出通用模型在复杂结构处理等领域仍存在不足,科研中专用模型表现更优

这是一份推荐阅读内容,其中提出了不少有价值的见解,尤其聚焦在通用模型仍存在能力缺陷的领域,比如处理复杂结构这类任务。

内容同时强调,在科学研究领域,专用模型已经取得了非常突出的成果。

当前各类任务都需要由智能体自行梳理解决,并整合现有技术。未来将会出现更多专用大语言模型,能更高效地吸收不同类型的信息。

omarsar0因此支持全智能体理念,也就是由多个不同智能体组合协同工作。

在 X 看原帖 ↗
4.3K42512
金融科技 · @LangChain▲ 5.3K

LangChain解析金融服务智能体下一发展阶段核心要求

LangChain最新指南探讨摩根大通等机构金融智能体落地路径

金融服务领域智能体开发的下一阶段,将以信任、可控性和生产就绪程度作为衡量标准。

在我们的最新指南中,我们介绍了@jpmorgan、@Chime和Bridgewater如何在研究、用户体验和投资工作流中部署生产级智能体。

在 X 看原帖 ↗
5.3K74119
大模型 · @LangChain▲ 4.5K

LangChain研究显示微调通义千问可媲美前沿模型

LoRA SFT微调后开源通义千问性能可匹配或超过前沿大模型

对开源模型微调可以达到甚至超过前沿模型的水平。

📦开箱即用的Base @Alibaba_Qwen,搭配良好提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。

🔧经过一次LoRA SFT训练后:微调后的两个模型性能都接近甚至超过了前沿模型水平。

在 X 看原帖 ↗
4.5K82913
🔬 前沿研究
前沿研究 · @TheAhmadOsman▲ 558

6亿参数模型赢过了三千多亿参数的大模型

小而专的模型已经能打败更大更强的模型

6亿参数模型击败了3970亿参数模型,还有 Sonnet 4.5。

小型专业化模型万岁。

在 X 看原帖 ↗
5582207
前沿研究 · @NielsRogge▲ 172

研究论文公开,还附了可直接用的代码

方便普通人自行探索 JEPA 与世界模型相关研究,不需要从零开始找资源

我添加了这篇论文,以便更多人可以探索这项工作。在这里你可以找到代码、关联的 @huggingface 工件,还可以了解 JEPA 和世界模型。

在 X 看原帖 ↗
172
前沿研究 · @emollick▲ 9.6K

用正向数据训练AI,居然能整体变听话

已有研究证实,用不良数据训练AI会让全模型失控。现在证实反向结论也成立,单领域正向训练数据能让全任务模型更合规

有论文显示,用“邪恶”数据训练AI会导致全面不对齐,所以知道相反的结论成立是件好事:在单个领域加入有益的RL数据,能让模型在一系列任务上都变得更对齐。

在 X 看原帖 ↗
9.6K37023
🚀 新品发布
新品发布 · @WesRoth

xAI的Grok模型,现在企业也能直接用了

做企业级AI智能体的团队,可以直接在Databricks Agent Bricks平台调用Grok模型了

xAI 在 Databricks Agent Bricks 上发布了 Grok 模型,扩大了这些模型在企业级 AI 代理中的可用范围。

在 X 看原帖 ↗
新品发布 · @LangChain▲ 1.1K

构建AI代理变简单了,投产还是难?这里出了新方案

做AI代理的团队不用再重复搭建运行环境,可以把精力集中在调整代理行为上

构建有用的智能代理正变得越来越容易,但在生产环境中运行它们依然很难。

我们打造了 Managed Deep Agents,让你的团队可以专注于代理的行为,而非反复重构它周围的运行时环境。

在 X 看原帖 ↗
1.1K295
新品发布 · @LangChain▲ 1.2K

@LangChain: 🎧 Brand new Max Agency with @hwchase17

🎧 Brand new Max Agency with @hwchase17 + @ZackRW

🎧 全新 Max Agency,由 @hwchase17 + @ZackRW 打造

在 X 看原帖 ↗
1.2K151
📰 行业动态
行业动态 · @zephyr_z9▲ 1.5K

目前全球最大规模的编码训练数据生成项目出现了

项目团队目前专注于编码领域,并且已经拥有所需的算力支持。

他们目前似乎专注于代码领域。我很确定,这是目前全球规模最大的代码训练数据生成项目。他们拥有足够的算力。

在 X 看原帖 ↗
1.5K4
观点 · @Vivek4real_

有人说AI不会抢你工作,只会让富人更富

这句话出自美国参议员JD Vance,AI会放大富人已经拥有的资源优势,普通人暂时还没找到能分到收益的明确路径

JD VANCE:AI不会抢走你的工作,但它会让富人变得巨富 “AI不会抢走你的工作……但它会让富人变得巨富”

在 X 看原帖 ↗
大模型 · @JulianGoldieSEO

国产GLM 5.2现场比赢了OpenAI Opus 4.8?

直播开发 Temple Run 风格跑酷游戏,GLM做出来的画面更好、运行更流畅,最终得分让测试者非常意外

GLM 5.2 刚刚在一场实时构建对决中完虐了 Opus 4.8。最终比分让我震惊。

游戏测试:
→ GLM 5.2 构建出了最好的 Temple Run 风格无尽跑酷游戏
→ 视觉效果、游戏流畅度、可玩性都优于另外两名竞争者
→ Opus 4.8 产出的版本质量最差

模拟测试:
✓ Kimi K2.7 赢下了太阳系模拟器项目
✓ 支持缩放控制、速度控制、轨道轨迹
✓ 交互性比 GLM 5.2 和 Opus 4.8 都更强

创意构建:
✔ GLM 5.2 赢下了液态元球模拟项目
✔ GLM 5.2 构建出了效果最好的苹果风格着陆页
✔ GLM 5.2 创作了最容易让人上瘾的霓虹街机游戏

最终比分:
→ GLM 5.2 在 5 项测试中赢下 4 项
→ Kimi K2.7 赢下 1 项测试
→ Opus 4.8 没有赢下任何一个分类

最有意思的点是什么?这个最新模型根本没有做公开 benchmark 炒作。它只是拿出了更好的结果。

在 X 看原帖 ↗
工具 · @gdb▲ 2.2万

有开发者实测说Codex这个AI应用真的很好用

没有更多细节评价,只有一句直接使用体验,目前OpenAI在新加坡Grab举办了Codex开发者见面会

Codex app 非常棒。

@OpenAI codex 见面会在 @GrabSG 举办!活动马上就要开始了!

在 X 看原帖 ↗
2.2万1122953
行业动态 · @rasbt▲ 4.4K

新增优化机制后,长文本推理成本大幅降低了

新开源权重模型GLM-5.2沿用已有注意力机制,新增IndexShare机制让100万词元推理成本降低很多

刚了解完最新的 GLM-5.2 发布。它是目前最好的开放权重模型。

架构上,它构建于我之前介绍过的 GLM-5 和 GLM-5.1 架构之上,这意味着它复用了 DeepSeek V3.2 的多头潜在注意力(MLA)和 DeepSeek 稀疏注意力(DSA)机制。(我之前在这里写过相关内容:)

新增的内容是他们加入了 IndexShare 机制。

这是给 DSA 做的跨层复用技巧:GLM-5.2 不再需要每一层都重新计算稀疏注意力的 top-k 索引,而是每四层才完整运行一次索引器,让后续几层复用选出的 token 索引。

这套方案保留了原 DSA 的核心思路,同时让 1M-token 推理的成本大幅降低。

在 X 看原帖 ↗
4.4K2212473
行业动态 · @ns123abc▲ 308

谷歌DeepMind称,到2030年AI能给美国 economy 增2.9万亿

谷歌DeepMind明确说,AI不是泡沫,可以参考这份官方给出的判断

🚨Google DeepMind:到2030年,AI智能体可为美国经济增加2.9万亿美元产值

顺便说一句,AI不是泡沫

在 X 看原帖 ↗
3083173
行业动态 · @jackclarkSF▲ 8.3K

今天有一场公开对谈聊AI进步后的未来选择

感兴趣可以点击链接观看这场直播,直接了解讨论内容

今天美国东部时间下午6点,我会和@sckimbriel一起在纽约,参加@aspeninstitute举办的关于人工智能与社会未来的对话活动。

我们会讨论RSI、AI进步所预示的未来,以及这项技术发展过程中我们需要考虑的选择。

可在这里观看直播:

在 X 看原帖 ↗
8.3K44321
行业动态 · @jerryjliu0▲ 1.6K

分享通用知识智能体新演讲,聚焦现代上下文层

做通用知识智能体研究的从业者,可以关注这场新分享的内容。

我为 DAIS 2026 准备了一场关于通用知识智能体与现代上下文层的新演讲 🔥 快来看看!

在 X 看原帖 ↗
1.6K132
大模型 · @Techmeme▲ 2.3K

国产开源大模型GLM-5.2拿到公开权重榜第一了

在人工智能分析机构的智力指数榜单里,它得分51,仅落后于几个闭源模型,是目前排名最高的可公开权重模型。

GLM-5.2 是 Artificial Analysis 智力指数中排名领先的开放权重模型,得分 51,仅落后于 Fable 5 的 60 分、Opus 4.8 的 56 分,以及 GPT-5.5 的 55 分(数据来自 Artificial Analysis)(链接和完整背景请访问 Techmeme dot com!)

📅 ThursdAI——6月18日——美国政府封禁 Fable,GLM 5.2 成为顶尖开源模型,Cursor 估值 600 亿美元,以及更多 AI 新闻

在 X 看原帖 ↗
2.3K3151
研究 · @emollick▲ 2.1K

AI已经开始 benchmark 人类要花几周做的工作了

目前顶尖模型完成这类任务的表现还不算好,但测试方向已经从简单问答转向长期复杂任务,接下来很快会推进到需要几个月完成的工作了。

我之前一直批评 Anthropic 的智能体评估工作,但这次的基准测试看起来做得很好,令人印象深刻:它针对的是不饱和、拥有私有预留测试集的真实世界知识工作。这个方向值得关注——不过我没看到人类对比得分?

我们现在已经开始在需要人类花好几周才能完成的任务上对模型做基准测试了。哪怕最好的模型表现仍然不算出色,但我们现在已经能开展这类测试这件事本身就很说明问题。

感觉我们距离让AI处理耗时数月、数年,乃至一整个职业生涯长度的任务已经不远了。「AI能完成任务但不能胜任工作」这个观点很快就站不住脚了。

有意思的还有 GLM-5.2 得分仅次于 Anthropic 的最佳模型,还超过了 GPT-5.5。我们可以等等看 GPT-5.6 推出后情况会不会变,但这已经能证明 GLM-5.2 有多优秀,也说明它对开放权重模型来说是一项重要进展。

在 X 看原帖 ↗
2.1K162
观点 · @MichaelGannotti▲ 23

AI下一步会从工具变成和你协作的同事

现在大家用的AI大多还是单点工具,有人讨论未来的方向是发展自主AI,最终会变成能和人类一起干活的协作角色。

在这期 Michael on the Go 节目中,我聊了 AI 工具与自主 AI 的区别,以及我们正从工具时代走向拥有协作同事与雇员的时代。

在 X 看原帖 ↗
2311
工具 · @JulianGoldieSEO

本地跑大模型不用再跟命令行折腾了

现在有可视化界面能直接连接Hermes模型和Ollama,不用再对着黑框输命令就能跑本地AI。

现在你可以把 Hermes 直接连接到 Ollama,通过可视化桌面界面运行本地 AI 模型,无需再使用终端。

不用再面对黑屏了。

不用再摆弄各种命令了。

在 X 看原帖 ↗
商业 · @ruima▲ 71

如果中国不光出口AI模型,还出口整套AI技术栈呢

成本优势不会只停留在单个模型上,整套技术出口的话,成本优势会覆盖更多环节。

更有意思的问题是,如果中国不只是出口AI模型,而是出口整套AI技术栈,会发生什么。成本优势并不只停留在模型层面。它最终会体现在芯片、基础设施软件、数据中心设计、能耗,以及高效运行整套系统所需的运营经验上。

中国拥有强烈的动力去优化全系统成本,因为它可用资本更少,获得前沿硬件的渠道也更有限。如果中国模型获得全球采用,其余技术栈也可能随之跟进。使用这些模型的企业,可能会越来越多地使用配套工具、基础设施和硬件。

更多部署带来更多优化,更大规模进一步拉低成本。最终会形成一个飞轮,从模型 adoption 延伸到整个技术栈的 adoption。

从历史来看,更低的成本不会降低需求,反而会扩大需求。更便宜的算力让我们拥有了更多算力,更便宜的存储让我们拥有了更多存储。最终赢家可能不是造出最智能模型的那一方,而是能以最低全系统成本提供智能服务的那一方。

目前这一切还没有发生,因为行业仍处于早期阶段。技术进步太快,没人能完全确定最终产品、商业模式和需求曲线会是什么样。但如果AI最终成为一种公用事业,整个技术栈的成本效率,其重要性可能会和模型本身的质量不相上下。

在 X 看原帖 ↗
712
经验 · @JinjingLiang▲ 13

有人让AI调度一批智能体帮自己调研竞品做得好的地方

做产品的人用OpenAI的Codex调度多个智能体,调研开发工具公司的优势,用来优化自己的产品。

我让 Codex 调度了一组智能代理,去调研最优秀的开发工具公司究竟在哪些地方做得非常出色——这样我们就能把 @orca_build 做得更好。

(它显示“本地 Mac”是因为我有时候也会在虚拟机里运行代理。今天我只用本地机器,因为我终于拿到一台 128GB 的了 😄)

在 X 看原帖 ↗
131
💡 深度观点
深度观点 · @realBigBrainAI▲ 243

砸越多钱AI不一定越聪明,原来还有硬天花板

Welch Labs指出,再多投入也没法突破这个天花板,不用盲目追着更大的AI模型投入成本

Welch Labs 揭示了为什么给 AI 砸更多钱不总能让它变得更聪明。存在一道任何模型都无法跨越的硬上限。

来源:Welch Labs

在 X 看原帖 ↗
24312121
深度观点 · @hardmaru▲ 2.5K

1991年就铺好了现在AI的核心理论基础

从Google Brain到现在Sakana AI的研究,这些早期 foundation 一直影响着研究者的思考方向

1991 年,Transformers、预训练、蒸馏和世界模型的基础就已经在构建当中了。

这些成果塑造了我个人的思考路径,从我在 Google Brain 的任职时期,一直延续到我们今天在@SakanaAILabs 开展的递归自我优化(Recursive Self-Improvement, RSI)工作中。🧠🗼 👇

在 X 看原帖 ↗
2.5K6201
深度观点 · @simonw▲ 149

为啥快硅推理厂商还没跑上新GLM模型?

目前Cerebras已经适配GLM-4.7,Groq目前主要运行Llama 3.x和GPT-OSS。想要更快推理GLM 5.2还得等。

我非常期待 @GroqInc 或 @cerebras 这类超快定制硅推理服务商,能把 GLM 5.2 跑起来。

目前 Cerebras 已经支持 GLM-4.7,Groq 上面还基本只有 Llama 3.x 和 gpt-oss。

在 X 看原帖 ↗
14942
深度观点 · @dair_ai▲ 328

解决了网页AI代理跨站技能复用的老问题

做网页AI代理的开发者可以参考,现有方法难以让学会的技能在新网站复用,新方法能让同一交互模式的技能跨站通用。

如果你正在开发网页智能体,这篇内容值得你花时间了解。它主题是如何实现智能体技能的可复用性。(记得收藏)

LLM网页智能体通常以工具调用者的身份运行。每一轮交互中,模型都会读取一个新页面,输出一个低级动作,因此无论是视野范围还是面向策略的LLM补全,在Mind2Web和WebArena这类基准测试上表现都很差。

技能库本应通过将重复片段封装为可调用工具来解决这个问题,但现有方案是基于指令相似度或网站元数据触发复用,在未见过的网站上几乎无法生效。

这项工作改用可迁移交互模式来路由技能复用,因此在一个网站上学到的技能,可以在拥有相同交互形态的新网站上触发生效。这就在按域名检索失效的场景下提升了复用效果。

为什么这很重要?搜索、筛选、翻页的操作逻辑在不同网站上都是相同的。将它抽象为模式匹配的技能,可以让网页智能体技能泛化到训练时所用网站之外的场景。

论文链接:
在我们的学院中学习如何构建有效的AI智能体:

在 X 看原帖 ↗
32866
⚡ 实战经验
实战经验 · @mattshumer_▲ 1.5万

这个AI agent方案,有人几年前就做出来了

HyperWriteAI 早在几年前就做出来具备计算机使用能力的Agent-1 CUA模型,现在才被提起

我们多年前就在 @HyperwriteAI 用我们的 Agent-1 CUA 模型做过这个了。只是我们做得早了一点点 :)

在 X 看原帖 ↗
1.5万33915
实战经验 · @victormustar▲ 3.1K

顶尖开发者用27B本地模型写最常用推理引擎

有人亲眼见证这件事,普通开发者不用再纠结本地模型能不能做硬核开发,直接看结果。

我亲眼见过🐐(史上最佳)用一个27B的本地模型,来编写目前最常用的推理引擎……你还有什么借口?

在 X 看原帖 ↗
3.1K2227
实战经验 · @omarsar0▲ 1.3K

微软Teams迎来首个常驻AI员工,不是加个对话框

有人实际测试了这个AI,它待在频道里做工作,还会主动规划下一步,可以看看这和普通AI工具的区别

Microsoft Teams 刚迎来了它的首位AI员工。我已经测试过了。

这是一个真正的AI员工,驻留在频道里,能完成工作,还能提议下一步行动。

它不是又一个prompt输入框。值得一看。@viktor__com

在 X 看原帖 ↗
1.3K1103
实战经验 · @LangChain▲ 1.3K

深度智能体教程第四弹,教你人工介入控制

这份教程讲了深度智能体框架,怎么通过原生人工介入原语实现控制,想搭智能体可以去看

Deep Agents 深度解析第四部分 | 操控:@sydneyrunkle 讲解 Deep Agents 线束如何通过一流的人工介入(HITL)原语来支持操控。

在 X 看原帖 ↗
1.3K1112
📌 其他
用户体验 · @emollick▲ 3.8万

行业人士观点:AI交互界面并不直观易用

建议认为AI界面直观的人教三人使用,会发现其使用障碍

任何觉得AI界面(聊天机器人、Codex、Code、NotebookLM等)直观好上手的人,都应该花时间给另外三个人讲解怎么用这些工具。

我保证你会发现,要得到一个好结果,有十几个小技巧和陷阱,这些都是挡在用户面前的路障。

我认为我提出的「用AI处理真实任务累计10小时」的规律是对的,但很多人连第一个小时都熬不过,还没摸清这些系统能做什么,就已经把它们框死在一个小标签里了——「有点像Google」。

在 X 看原帖 ↗
3.8万40722147
大模型 · @LangChain▲ 4.5K

LangChain研究显示微调通义千问可媲美前沿模型

LoRA SFT微调后开源通义千问性能可匹配或超过前沿大模型

对开源模型微调可以达到甚至超过前沿模型的水平。

📦开箱即用的Base @Alibaba_Qwen,搭配良好提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。

🔧经过一次LoRA SFT训练后:微调后的两个模型性能都接近甚至超过了前沿模型水平。

在 X 看原帖 ↗
4.5K82913
金融科技 · @LangChain▲ 5.3K

LangChain解析金融服务智能体下一发展阶段核心要求

LangChain最新指南探讨摩根大通等机构金融智能体落地路径

金融服务领域智能体开发的下一阶段,将以信任、可控性和生产就绪程度作为衡量标准。

在我们的最新指南中,我们介绍了@jpmorgan、@Chime和Bridgewater如何在研究、用户体验和投资工作流中部署生产级智能体。

在 X 看原帖 ↗
5.3K74119
大语言模型 · @omarsar0▲ 4.3K

用户omarsar0推荐通用模型失效领域的AI研究见解

omarsar0指出通用模型在复杂结构处理等领域仍存在不足,科研中专用模型表现更优

这是一份推荐阅读内容,其中提出了不少有价值的见解,尤其聚焦在通用模型仍存在能力缺陷的领域,比如处理复杂结构这类任务。

内容同时强调,在科学研究领域,专用模型已经取得了非常突出的成果。

当前各类任务都需要由智能体自行梳理解决,并整合现有技术。未来将会出现更多专用大语言模型,能更高效地吸收不同类型的信息。

omarsar0因此支持全智能体理念,也就是由多个不同智能体组合协同工作。

在 X 看原帖 ↗
4.3K42512
开发工具 · @LangChain▲ 4.4K

LangChain推出Fleet:短提示即可生成AI代理工作流

用户输入简短任务描述,Fleet可跨团队日常应用完成规划执行,点击即可生成AI代理

用户只需用简短提示描述任务,Fleet就能完成任务规划、执行操作。Fleet可以在团队日常使用的各类应用之间协同工作。

只需点击几次,就能把一段对话转换为可工作的AI代理。

目前已经开放试用,用户可以立即开始构建自己的AI代理。

在 X 看原帖 ↗
4.4K3268
大模型 · @jeremyphoward▲ 16.6万

AI开发者Jeremy Howard盛赞Zai GLM 5.2大模型性能

开发者称GLM 5.2性能对标头部闭源模型,仅不支持图像处理

哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8、GPT 5.5 一样好。

它速度超快,价格低廉,也不会过于啰嗦。它的回答充满细节分寸和判断,而且处理长上下文非常出色。我从未见过这样的开源权重模型。

它目前最大的短板是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它说不定会成为全球现有的最强模型。

顺便说一句,我是用 @FireworksAI_HQ 做推理的。其他供应商可能没这么快。

在 X 看原帖 ↗
16.6万1652.5K607
大语言模型 · @LangChain▲ 5.0K

Benchling AI负责人称理解大语言模型更接近生物学

Benchling AI负责人提出理解LLM更接近生物学而非软件工程

.@benchling 人工智能主管 @nlarusstone 谈为什么理解大语言模型更接近生物学,而非软件工程。

在 X 看原帖 ↗
5.0K63512
大模型 · @jeremyphoward▲ 1.4万

AI专家Jeremy评价GLM 5.2比肩头部闭源大模型

AI领域知名人士Jeremy Howard公开评价GLM 5.2并推荐推理服务商

哇。@Zai_org 的 GLM 5.2 太惊艳了!它至少和 Opus 4.8 以及 GPT 5.5 一样优秀。它速度超快、价格便宜,而且不会过度冗长。

它的回答富有层次感和判断力,处理长上下文的表现非常出色。我之前从未用过这么优秀的开放权重模型。

它现存的一个大缺陷是「视觉盲」——完全无法处理图像。如果他们修复了这个问题,它很可能会成为世界上最好用的模型。

顺便一提,我一直用 @FireworksAI_HQ 做推理。其他提供商可能没有这么快。

在 X 看原帖 ↗
1.4万813745
产品发布 · @ClaudeDevs▲ 5.1万

Anthropic Claude推出企业托管认证MCP扩展开启Beta测试

Claude新增企业级托管认证MCP扩展,联合多工具开启Beta测试

我们已经为 MCP 添加了 Enterprise-Managed Auth 扩展支持。管理员可以为他们的组织集中授权 MCP 连接器,这样用户第一次登录时,所有需要的工具和数据就都已经连接好了。

它通过你的身份提供商集中授权:用户不需要逐个应用配置 OAuth 或进行设置,管理员也能获得更严格、更高效的控制。

目前处于 beta 测试阶段,支持 Okta,以及来自 Asana、Atlassian、Canva、Figma、Granola、Linear、Slack 和 Supabase 的连接器,Slack 支持很快推出。在 Claude chat、Claude Code 和 Cowork 中,访问权限保持一致。阅读公告:

它构建在一个 MCP 扩展之上,任何客户端、服务器或 IdP 都可以采用。如果你有兴趣了解更多或采用它,请点击这里阅读:

在 X 看原帖 ↗
5.1万1117673
动态 · @JulianGoldieSEO▲ 108

网传GPT 5.6泄露信息称支持150万词单聊天记忆

海外社交平台流出GPT 5.6的核心能力泄露信息

如果这些泄露信息属实,那GPT 5.6就是一次巨大飞跃:
→ 每个对话150万词内存
→ 上下文处理能力比旧模型提升10倍以上
→ 支持多步骤自主智能体
→ 即时生成网站
→ 内置推理速度模式

规律很清晰:AI正从「响应」转变为「执行」。
收藏这条视频,你会看到它未来的发展方向。完整指南在AI Profit Boardroom内部。私信我。💬

想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉

在 X 看原帖 ↗
1081
大模型 · @JulianGoldieSEO▲ 44

网传GPT 5.6性能大幅提升 博主推广AI盈利课程 coaching

爆料GPT 5.6技术升级方向,博主推广AI盈利相关课程

如果这些泄露信息属实,那 GPT 5.6 将是一次巨大飞跃:

→ 单对话 150万词上下文记忆
→ 上下文容量是旧模型的10倍以上
→ 支持多步骤自主智能体
→ 一键生成网站
→ 内置推理速度模式

趋势非常清晰:AI正在从「响应请求」走向「执行任务」。
收藏这条视频,你会看到它最终通向何处。完整指南在 AI Profit Boardroom 内。私信我。💬

想要用 AI 赚钱、节省时间?获取 AI 指导、支持与课程 👉
免费获取一门 AI 课程 + 1000个全新 AI 智能体 👉

在 X 看原帖 ↗
441
产品发布 · @ClaudeDevs▲ 39.4万

Anthropic应用AI团队发布Claude托管代理新博文

博文介绍Claude Managed Agents及其解决的Agent落地生产痛点

团队如何将智能代理投入生产?我们的Applied AI团队发布了一篇新博客,介绍Claude Managed Agents,以及它能解决的各类挑战(凭证管理、沙箱、可观测性等等)……

这篇博客分享了团队选择基于Claude Managed Agents构建的常见原因、多个案例研究,以及入门的实用技巧:

在 X 看原帖 ↗
39.4万2653.5K3.3K
大模型 · @LangChain▲ 4.8K

LangChain研究显示微调通义千问开源模型可匹敌前沿模型

LoRA监督微调后,开源通义千问性能接近或超越前沿模型

对开源模型微调可以达到甚至超过前沿模型的水平。

📦开箱即用的Base @Alibaba_Qwen 搭配优质提示:在感知错误分类任务上表现强劲,性能略逊于前沿模型。

🔧经过LoRA监督微调后:两款模型的性能都接近甚至超过了前沿水平。

在 X 看原帖 ↗
4.8K83014
商业 · @AnthropicAI▲ 13.8万

Anthropic发布Claude Code最新经济研究报告

Anthropic分析40万次会话,公布Claude Code使用价值与成功规律

阅读全文 →
13.8万32470137
智能体 · @fofrAI▲ 597

教程:如何搭建一个可协同工作的AI智能体团队

分步讲解搭建协同AI智能体团队的具体操作流程

如何打造一支协作AI智能体团队:
- 搭建你第一个偏好的智能体(它就是你的编排器)
- 让它配置 Gemini Managed Agents 或类似 modal cpu 实例的服务,在独立环境中启动子智能体
- 启动一项深度研究任务,调研管理智能体团队的最佳实践:包括最佳分工、各分工所需技能,以及团队管理、交叉沟通和规划方法
- 让智能体应用研究得出的最佳建议
- 循环重复这个过程(如需可逐步增加智能体数量)

对于你的团队:
- 给他们一个空仓库,向他们发起构建项目的挑战,建立最佳实践,让智能体观察问题,提出智能体管理的修复方案并快速迭代(这个过程会梳理出竞态条件、规划方案等各类问题)

在 X 看原帖 ↗
59736
动态 · @JulianGoldieSEO▲ 156

OpenAI系统日志意外泄露GPT 5.6相关配置信息

爆料称OpenAI在内部系统日志中意外泄露了GPT 5.6

🚨 OpenAI 意外在自家系统日志中泄露了 GPT 5.6,相关细节非常惊人。

150万词的记忆容量。自主AI智能体。可变思考速度。仅凭一句话就能生成看起来和人工制作无异的网站。

这不只是一次更新。这是一种完全不同的AI。

想要用AI赚钱、节省时间?获取AI指导、支持与课程 👉 免费获得一门AI课程 + 1000个全新AI智能体 👉

在 X 看原帖 ↗
1562

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top
把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部