AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 6 月 24 日 19:04 更新 00 信号0 主题
试试:
今日焦点

OpenAI用AI和专家帮开源项目修漏洞

你每天用的浏览器、操作系统、还有各种应用,底层都跑着开源代码。但这些项目分散、没人盯着,漏洞不少。前几年的log4j漏洞就是个例子——一个日志库的问题,影响了上亿用户。

OpenAI周一公布了一个叫“Patch the Planet”的计划,和安全公司Trail of Bits合作,帮开源社区修补安全漏洞。Trail of Bits的安全工程师会直接找开源项目的维护者,一起看代码问题。OpenAI自己的安全工具Codex Security也会参与进来,辅助分析。

这个计划的设计挺贴心:不给维护者添乱。

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

行业动态 · Hacker News▲ 36

扩散Transformer生成模型推出了统一评估基准

开发者现在可以用这套基准,更全面地对比不同生成模型的实际效果

行业动态 · Hacker News▲ 31

有人说要阴阳怪气骂自私用大模型的人

对大模型使用方式的不同态度已经催生了社群里的道德对立。这种对立会影响普通人用大模型的选择

行业动态 · @RoundtableSpace▲ 3.2万

四个Mac Mini加一个烤面包机,每月花2.1万美元跑私有AI

这就是现在私有AI的运行成本,可供参考

四台放在烤面包机旁的 Mac Mini 正在运行私有 AI,月花费 21000 美元

在 X 看原帖 ↗
3.2万475
行业观点 · @fchollet▲ 2.7万

AI大神François Chollet驳斥AI取代SaaS的观点

他澄清Claude无法取代SaaS,并给出四点核心论据

这听起来蠢到离谱,但 SaaS 空头显然真的相信这套说法:“所有软件都终将归零,因为 Claude 可以一次性生成这些应用”。这句话短视到惊人。

澄清几点:
1. 它做不到。Fable 可用的时候我用过,它确实是个不错的模型,但离目标还差不到1%的路程。
2. 就算它做得到,这件事整体而言对 SaaS 公司是利好,不是利空。从更好的开发工具中获益最多的群体就是软件开发者。

3. 代码不等于产品。既然客户可以花钱订阅就能把问题解决,没人会仅仅因为自己能生成代码,就愿意亲自处理遇到的每一项额外任务。

4. 代码生成越容易,就会催生更多软件,意味着现有 SaaS 的使用场景会更广。你已经能从数据中看到这个趋势了。

在 X 看原帖 ↗
2.7万2136780
生成式AI · @minchoi▲ 3.4万

AI工具Seedance 2.0可生成完整K-pop舞蹈MV

AI工具Seedance 2.0可基于角色参考生成完整K-pop舞蹈音乐视频

阅读全文 →
3.4万13155141
行业动态 · Hacker News▲ 39

通义千问推出了通用智能体框架Qwen-AgentWorld

关注通用AI智能体发展的人,可以跟进这个新开源项目的进展

行业动态 · Hacker News▲ 44

智能体平台该怎么划分团队分工?

讨论智能体平台的团队分工拓扑结构,帮做相关规划的人理清不同角色的职责边界

社区讨论:多数读者认为原帖表述混乱,每段塞满命名概念,大量主张没解释对应问题,读起来像未经编辑的AI垃圾内容,呼吁作者修改优化可读性。有从业者指出,实际试过文中提到的多智能体编码,结果并不理想,这类未被验证的技术就像付费推广的网红餐厅,只有流量没有实料。也有人认同原帖提到的智能体分工确实存在复杂性。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 186

Anthropic 更新服务条款,要验证年龄或身份了

使用 Claude 服务需要提交个人身份或年龄信息才能继续使用。

社区讨论:不少用户批评此举是闭源大模型引入监控和准入管控的信号,有人讽刺此前西方批评中国的公民监控与评分体系,现在美国反而要在该领域走到前列。有非美国用户担忧美国AI监管会持续抬高其他地区用户访问这些闭源模型的门槛,还有用户早就因Anthropic偷偷降智特定技术领域的模型输出取消了订阅,不少人转而认为开放权重模型才是行业未来方向。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 426

Mistral 推出新版文字识别工具OCR 4

关注大模型进展的人可以留意,新版 Mistral OCR 已经发布,目前已有大量讨论。

社区讨论:付费订阅过Mistral产品的用户吐槽其产品体验差,宁愿浪费年订阅也不愿再使用。有用户对比价格,指出Mistral OCR 4每千页收费4美元,比Google Vision OCR的1.5美元贵很多,也有人好奇它和Llama Parse的效果对比。有实际使用过前代产品处理老化文件的用户反馈,其效果比Abbyy Finereader更好。

还有从业者调侃,一定会有经理人无视官方的使用范围提示,将它用到高风险场景中。

在 HN 看讨论 ↗   原文 / 论文 ↗
新品发布 · @OpenAIDevs▲ 7.7万

半年更30+更新,OpenAI悄悄出了GPT-5.5

近期OpenAI为开发者API批量推出多款新模型和开发工具,不少更新未单独发布公告,开发者可以直接选用新工具搭建AI应用。

过去六个月,我们为 API 发布了 30 余个模型、功能和升级工具。我们的更新日志一直排得很满。以下是你可能错过的 API 更新内容:

新模型
• GPT-5.5
• GPT-5.4 mini
• GPT-5.4 nano
• GPT-Realtime-2
• GPT-Realtime-Whisper
• GPT-Realtime-Translate
• GPT-Image-2

智能体构建模块
• Agents SDK 框架与沙箱
• Responses API 中的技能
• 服务端压缩
• WebSocket 模式
• 托管终端

更多构建方式
• Admin API 增强
• OpenAI CLI
• Amazon Bedrock 上可用的模型

在 X 看原帖 ↗
7.7万36660162
评测 · @emollick▲ 5.9万

开发者实测AI模型Sakana Fugu Ultra-high速度极慢

开发者测试Sakana Fugu Ultra-high,实测运行耗时久效果未达预期

我一直在试用 Sakana Fugu Ultra-high,首先它慢得离谱:我常规的编码测试(着色器、交互场景)要跑30分钟。

而结果也就…还行。实际使用中它比不上Fable。它的harbor就是一个很好的例子:

TiKZ unicorn

在 X 看原帖 ↗
5.9万2140186
产品发布 · @OfficialLoganK▲ 13.0万

谷歌正式推出Interactions API 为智能体新时代铺路

谷歌正式发布通用可用的Interactions API,用于统一编排模型与智能体

今日我们正式推出达到GA可用状态的Interactions API。这是我们全新的API,设计目的是让你在同一界面中协调多个模型和智能体工作,它也是我们未来默认采用的新API。Interactions为智能体的新时代铺平了道路 :)

这项API的开发和落地准备离不开@alihcevik、@_philschmid以及Google团队中许多其他成员的出色工作,感谢大家!

在 X 看原帖 ↗
13.0万781.0K303
职业 · @VincentLogic▲ 147

你听说吗?最容易被AI拉开差距的是半上车的人

只会开通会员问AI问题截图炫耀,却不沉淀提示词,也不把AI整合进日常工作流,把单次经验变成可复用的系统。

未来几年,最容易被 AI 拉开差距的,不是底层体力劳动者。而是那些以为自己“懂一点”,但从来没有真正把 AI 接进工作流的人。他们会开会员,会问问题,会截图炫耀。

但不会沉淀提示词,不会整理资料,不会让 AI 复盘自己,不会把一次经验变成系统。这类人最危险,因为他们以为自己已经上车了。

在 X 看原帖 ↗
147
工具 · @WesRoth

Perplexity上线了智源GLM-5.2开放模型接口

开发者现在可以在Perplexity的智能代理(Agent)API里调用这个智源的旗舰开源模型,用来写代码和搭建智能代理工作流。

Perplexity 在其 Agent API 中发布了 GLM-5.2,允许开发者调用 Z ai 面向代码开发和智能体工作流的旗舰开放权重模型。

在 X 看原帖 ↗
AI生成 · @liyue_ai▲ 217

AI生成的摩天轮居然长得这么奇怪离谱

有人分享了一张摩天轮照片,轮廓结构妖异,第一眼就会怀疑是不是AI生成的内容。

这个摩天轮看着妖里妖气的, 确定不是AI生成的吗?😅

在 X 看原帖 ↗
217
研究 · @norpadon▲ 70

AI量化建模处理像素值时总有一步容易漏

图像像素看着是连续数值,实际存储是8或10位整数,做量化建模时这里有容易出错的细节。

这就是为什么在对量化连续值建模时(比如图像像素,我们假设它是连续的,但实际上它以 8 位或 10 位整数表示),你总会需要在计算似然度之前添加均匀噪声。

在 X 看原帖 ↗
70
新品发布 · @WesRoth▲ 726

AI视频生成现在能直接出4K专业级画面了

做后期制作、广告和品牌视觉内容,可以直接用网页端工具生成符合要求的4K分辨率内容

Dreamina AI 在其网页平台发布了支持 4K 视频生成的 Seedance 2.0。

本次更新支持输出 3840 × 2160 UHD 规格,面向专业后期制作、广告与品牌视觉领域。

在 X 看原帖 ↗
72631
行业动态 · @BAI_AGI▲ 3.7K

AI基础设施用户近200万,日吞吐近120亿Token

比起拥有模型入口,能在百亿级高频吞吐下保持零宕机、低延迟,才是真正的核心壁垒

【6月23日| 生态洞察】 全线指标高位凝聚动能, 持续拓宽全球开发者首选的工业级 AI 基础设施底座。

🔹百亿算力洪流全面常态化:日 Token 吞吐量强劲横盘于 11.97B 高位,日均百亿级并发已成为运行基线,持续为全球高负载业务提供坚不可摧的性能支撑。

🔹200万用户里程碑近在咫尺: 全球生态加速聚沙成塔,累计注册总数已精准推进至 1,993,642,规模效应正驱动平台网络价值进入爆发临界点。

🔹API 牢牢锚定 99.2% 核心心智: 这一数据再次表明, 全天候运行的完全是硬核代码调用与自动化工作流,已全面固化为深度嵌入商业流程的刚需底层。

🔹TRON 链展现统治级份额: 链上充值占比全面提升,其中 #TRON 链凭借极高的结算效率、坚实的网络高韧性与极致低摩擦的转账成本,单独斩获 79.4% 的压倒性份额。

💡 核心洞察: 拥有模型入口并不代表拥有壁垒,在百亿级高频吞吐下保持“零宕机、低延迟”的工程确定性才是真正的降维打击。

致力于担当硬核底座,协助全球团队将 AI 算力无缝转化为确定性的业务价值。

👉 一键部署您的生产级 AI 工作流:

在 X 看原帖 ↗
3.7K1
深度观点 · @VincentLogic▲ 73

别再光“学习AI”了,先做个能卖钱的东西

一直准备却迟迟不开始,是这个时代效率最低的AI学习方式,边做边学比空想准备更有用。

给普通人的 S 级忠告: 不要再“学习 AI”。这句话太虚了。你应该直接拿 AI 做一个东西。

做一个网站。做一个账号。做一个产品页。

做一个数据分析。做一个自动化流程。做一个能卖钱的交付物。

学不会没关系,边做边问。这个时代,最傻逼的学习方式就是一直准备开始。

在 X 看原帖 ↗
731
前沿研究 · @dejavucoder▲ 427

做自动研究工作流,这个基准测试挺有用

搭建自动研究类工作流时,可以用上这个基准测试

如果你的使用场景是自动研究类工作流,这看起来会是一个很有用的基准测试。

在 X 看原帖 ↗
427221
AI监管 · @_arohan_▲ 132

各国政府该给AI模型出一张统一标准答案考卷

开发者不知道该往哪个方向优化模型,有人提议政府像出公民考试一样,明确列出要求,开发者就能照着优化了。

到目前这个阶段,每个政府都应该为他们想要模型达成的目标制定环境和评估标准,这样模型开发者才能针对性优化提升。

这就类似各种公民考试的运作方式。

在 X 看原帖 ↗
1323
行业动态 · @WesRoth

接下来几周,AI圈会迎来近几年最激烈的竞争

行业观察者预判,这段时间会有大量新产品或者新技术集中发布,竞争烈度会超过之前多数时期。

未来几周可能会成为我们在AI领域见过的竞争最激烈的时期之一。

在 X 看原帖 ↗
新品发布 · @jordnb▲ 387

推出能自主常驻在组织里的异步工作实体

这个实体自带全组织工具与上下文,能和人类团队配合协同工作。

一个自包含、持久化、异步运行的实体,拥有全组织范围的工具和上下文,能与人类团队协同工作!

在 X 看原帖 ↗
38721
求职 · @ericosiu▲ 345

招人怎么判断真会用AI?试试这三个简单问题

面试AI相关岗位的时候,让候选人开共享屏幕,当场演示自己常用的AI工作流,聊聊Claude Code这类工具的实际用法

如何筛选接受AI理念的人才:问他们最喜欢的工作流是什么。让他们共享屏幕,展示你问到的这些工作流。让他们打开自己的 Claude Code/Codex,聊聊他们最近几天是怎么用这个工具的。

就这么简单。

在 X 看原帖 ↗
34565
工具 · @svpino▲ 1.8K

Claude Code居然能爬付费墙后面的网站内容

配合Apify和MCP连接器,它可以解析全网内容,还能让AI代理操作付费权限内的服务器任务

Claude Code 可以通过 Apify actors 解析整个互联网。配合 MCP 连接器,你可以和服务器对话,让你的代理执行付费墙背后的操作。

举个例子(点这里看视频):分析一个 YouTube 视频,然后把摘要写进 Notion 页面。另一个例子:抓取学校日历,自动把事件添加到你的 Google Calendar。

你可以用 Claude Code + Apify Skills 完成所有这些操作。配置只需要花几秒钟:
• 打开你的 Apify 设置 > API & Integrations
• 连接你的工具(Notion、Google Calendar 等)
• 一次性完成授权

现在你的 actors 就拥有这些服务的直接读写权限了。

这里有一篇博客文章,讲解 Apify 里的 MCP 连接器是如何工作的:

感谢 Apify 团队和我合作推出这篇文章。

在 X 看原帖 ↗
1.8K12
机器人 · @BoyuanChen0▲ 302

MIT开源了能用视频指令控制机器人的项目

研发团队认为视频是机器人的通用语言,这个开源项目能给任意机器人赋能,完成不同类型的任务

视频是机器人的语言。

我在 MIT 的实验室刚刚开源了这个项目,它能用一个视频模型为任意机器人、任意任务提供能力支持。

祝贺 Lester 与团队牵头完成了这个项目!

在 X 看原帖 ↗
30253
行业预测 · @teortaxesTex▲ 729

分析师预言2026年底AI赛道会迎来重大变局

届时多家美国实验室会推出具备类自我改进(RSI)潜力的超大型模型,千兆瓦级AI算力园区也会投入使用

到2026年第四季度/2027年第一季度,我们将见证AI竞赛双方都发生阶段变革。

多家美国实验室将发布具备RSI潜力的Mythos级模型,GW级算力园区投入运行……

而中国创业公司将拥有2000-3000名员工,大约10万-20万块GPU。它们直到现在才刚进入自己的「Hopper」时代。

在 X 看原帖 ↗
7299
工具教程 · @LangChain▲ 3.1K

LangChain分了两类AI代理,告诉你什么时候用哪款

LangSmith Fleet做了通用对话代理和专业代理的区分,官方拆解了这个设计的原因,以及对应的使用场景

LangSmith Fleet 有两类 agent:通用对话 agent 和专用 agent。下面是我们梳理的为什么这是一个深思熟虑的选择,以及什么时候该用哪一类。

在 X 看原帖 ↗
3.1K1166
职场 · @BrianRoemmele▲ 3.6K

Meta暂停追踪员工键盘输入的AI训练项目

这个内部AI项目被泄露之后,Meta选择停止项目,此前项目一直用来追踪员工的日常输入记录

“哥们,你在追踪我按键吗?”

“Meta 在内部泄密事件后,暂停了一个追踪员工按键输入的 AI 训练项目”

在 X 看原帖 ↗
3.6K6
云服务 · @GoogleCloudTech▲ 2.2K

谷歌云优化后,大模型推理速度快8倍吞吐量提5倍

和Anyscale合作优化后,运行在谷歌Kubernetes引擎上的Ray Serve大模型推理服务,性能提升很明显

通过与@anyscalecompute的合作,现在 Google Kubernetes Engine 上的 Ray Serve LLM 可为分布式推理提供高 5 倍的吞吐量,并且延迟降低 8 倍!

了解更多关于如何在无瓶颈的情况下扩展推理 →

在 X 看原帖 ↗
2.2K51
深度观点 · @beffjezos▲ 1.7K

美国开源大模型需要政府给钱支持?不然就完了

有人认为,美国政府必须把支持本国开源AI模型放在优先位置,否则发展会出问题。

美国政府需要扶持并优先发展美国开源模型,否则我们就完了。就是这么简单。

在 X 看原帖 ↗
1.7K3211
新品发布 · @warpdotdev▲ 1.1K

终端工具Warp新增支持GLM 5.2大模型

GLM 5.2托管在Fireworks,token效率表现优秀,同时支持自带推理接口连接其他服务商

Warp 现已支持 GLM 5.2!它由 Fireworks 托管,在智能推理上的 token 效率极高。

我们同时支持 BYO 推理,可通过其他提供商连接。

在 X 看原帖 ↗
1.1K131
前沿研究 · @RoundtableSpace▲ 6.9K

本地跑国产大模型,速度对比GPT和Claude

有人把本地运行GLM-5.2 GGUF,和在线的GPT-5.5、Claude Opus 4.8做了同提示词输出对比

3个模型,同一个提示词,单次生成结果并排对比。

> GLM-5.2 GGUF 在 M3 Ultra 本地运行,生成速度 21 tok/s

> 另一边是 Claude Opus 4.8 和 GPT-5.5

在 X 看原帖 ↗
6.9K14
深度观点 · @ZackKorman▲ 669

企业CEO说要让AI实验室降价,怕什么?

其他科技CEO都在推荐新的大模型好用,只有这位CEO希望AI实验室降价,避免企业发现开源模型好用。

其他科技公司CEO:试试GLM-5.2,真的很棒!

Palo Alto Networks的CEO:AI实验室应该降价,这样企业就不会去试开放权重模型,也就不会发现它们其实很好用了。

在 X 看原帖 ↗
6692291
实战经验 · @LangChain▲ 4.0K

深度智能体出了新玩法,可以自己写代码跑了

LangChain开源团队出了一份讲解教程,想做AI智能体可以参考这份新方案。

深度智能体中的解释器:小型嵌入运行时,智能体可以在智能体循环内部编写并执行代码。

以下是来自 @LangChain_OSS 团队 @huntlovell 的讲解。

在 X 看原帖 ↗
4.0K2214
新品发布 · @RoundtableSpace▲ 1.1万

Google办了场比赛,让AIagent比谁跑得更快

比赛比每秒输出token数,有实时排行榜,社区跑模型的时候就能一起优化它

Google 和 Hugging Face 推出了一场实时竞赛,AI 代理会互相竞速,目标是在实时环境中让 Gemma 4 E4B 运行得更快。

参赛代理会在实时排行榜上竞争,评分标准是每秒生成的 token 数量。

在竞赛运行期间,整个社区会共同对模型进行优化。

在 X 看原帖 ↗
1.1万114
实战经验 · @tetsuoai▲ 1.5K

神经网络核心只需要四张卡片讲明白

想搞懂AI到底怎么工作,不用先啃几大本数学书,记会四个核心概念就能入门所有AI模型。

一整个神经网络核心,就浓缩在四张内容卡里。

神经元、前向传播、激活函数、反向传播。

学会这四个概念,你就能理解从感知机到 transformer 的每一个模型是如何做预测、如何学习的。

在 X 看原帖 ↗
1.5K5199
深度观点 · @emollick▲ 1.6万

未来半年可能出开源顶级大模型,风险更高

所有顶级能力的大模型都可能带来类似风险,政府未明确风险方向,可能拖慢风险应对准备

所有 Mythos 级模型都可能带来类似风险。

未来 6 到 12 个月内,如果开放的 Mythos 级 AI 发布(前提是中国批准),这些风险只会变得更大。

目前政府到底在关注哪些风险尚不明确,这可能会拖慢筹备工作。

在 X 看原帖 ↗
1.6万824515
深度观点 · @fchollet▲ 2.1万

现在的AI技术栈,2040年就会被完全换掉

现有AI技术栈数据效率低三到四个数量级,计算效率低四到五个数量级,2040年的近最优AI会由符号学习实现

到2040年的AI不会建立在我们今天使用的技术栈之上。它会更接近最优状态。

当前技术栈的数据效率存在3-4个数量级的浪费,计算效率存在4-5个数量级的浪费。

符号学习将会带来接近最优的AI。

在 X 看原帖 ↗
2.1万3341682
行业动态 · @TechCrunch▲ 7.5K

印度营销公司押注,未来营销靠数百万AI智能体

营销领域已经开始押注AI智能体的未来方向

India 的 MoEngage 押注,营销的未来是数百万个 AI 智能体

在 X 看原帖 ↗
7.5K23
工具产品 · @fofrAI▲ 4.7K

一行命令就能给AI Agent加Gemini技能

搭建自己的AI智能体不用从零写功能,直接用命令就能调用现成技能,省了重复开发的时间。

给你的 agents: > npx skills add google-gemini/gemini-skills --skill gemini-interactions-api --global

在 X 看原帖 ↗
4.7K4214
前沿研究 · @goodfellow_ian▲ 1.2万

小参数开源权重模型,居然比热门方案还能打

早已有小众工具用更小的模型做LLM漏洞挖掘,效果能和流行方案竞争,早做探索的小项目也可能藏着更优路径

虽然 Mythos 推广了用 LLM 寻找漏洞的想法,但 Aisle 更早就在做这件事了。

从工程角度来看,一个搭载结构化搜索系统的小型开放权重模型,能在这项任务上具备竞争力,这一点很值得玩味。

在 X 看原帖 ↗
1.2万46336
视频生成 · @HBCoop_▲ 1.4K

四款主流AI视频生成模型完成同条件对比测试

测试人员使用同一参考图与提示词,对四款模型各测试四次后选出最优结果

本次对比测试涉及四款AI视频生成模型,分别是Happy Horse 1.1、Seedance 2.0、Gemini Omni与Kling 3.0。测试人员对每款模型都使用了相同的参考图像与提示词。每款模型共完成四次生成尝试,测试人员从中选出表现最好的结果。

完整测试结果可查看原链接。

在 X 看原帖 ↗
1.4K2133
研究 · @hwchase17▲ 1.1万

研究提出Self-Harness方法让AI智能体自我改进

最新研究发布Self-Harness,可让智能体逐步自我优化

🧠Self-Harness:可以自我迭代改进的Harness

一篇关于智能体塑造自身Harness以随时间推移提升性能的新论文。

它不是LangChain的项目,而是基于DeepAgents构建。它包含三个核心步骤:

1/ 弱点挖掘:从运行轨迹中找出失效模式
2/ Harness提议:对Harness提出修改建议
3/ 提议验证:对提议进行回归测试,然后决定是否采纳

论文链接:

基于DeepAgents构建:

在 X 看原帖 ↗
1.1万23124134
🔬 前沿研究
前沿研究 · @dejavucoder▲ 427

做自动研究工作流,这个基准测试挺有用

搭建自动研究类工作流时,可以用上这个基准测试

如果你的使用场景是自动研究类工作流,这看起来会是一个很有用的基准测试。

在 X 看原帖 ↗
427221
前沿研究 · @goodfellow_ian▲ 1.2万

小参数开源权重模型,居然比热门方案还能打

早已有小众工具用更小的模型做LLM漏洞挖掘,效果能和流行方案竞争,早做探索的小项目也可能藏着更优路径

虽然 Mythos 推广了用 LLM 寻找漏洞的想法,但 Aisle 更早就在做这件事了。

从工程角度来看,一个搭载结构化搜索系统的小型开放权重模型,能在这项任务上具备竞争力,这一点很值得玩味。

在 X 看原帖 ↗
1.2万46336
前沿研究 · @RoundtableSpace▲ 6.9K

本地跑国产大模型,速度对比GPT和Claude

有人把本地运行GLM-5.2 GGUF,和在线的GPT-5.5、Claude Opus 4.8做了同提示词输出对比

3个模型,同一个提示词,单次生成结果并排对比。

> GLM-5.2 GGUF 在 M3 Ultra 本地运行,生成速度 21 tok/s

> 另一边是 Claude Opus 4.8 和 GPT-5.5

在 X 看原帖 ↗
6.9K14
🚀 新品发布
新品发布 · @WesRoth▲ 726

AI视频生成现在能直接出4K专业级画面了

做后期制作、广告和品牌视觉内容,可以直接用网页端工具生成符合要求的4K分辨率内容

Dreamina AI 在其网页平台发布了支持 4K 视频生成的 Seedance 2.0。

本次更新支持输出 3840 × 2160 UHD 规格,面向专业后期制作、广告与品牌视觉领域。

在 X 看原帖 ↗
72631
新品发布 · @jordnb▲ 387

推出能自主常驻在组织里的异步工作实体

这个实体自带全组织工具与上下文,能和人类团队配合协同工作。

一个自包含、持久化、异步运行的实体,拥有全组织范围的工具和上下文,能与人类团队协同工作!

在 X 看原帖 ↗
38721
新品发布 · @OpenAIDevs▲ 7.7万

半年更30+更新,OpenAI悄悄出了GPT-5.5

近期OpenAI为开发者API批量推出多款新模型和开发工具,不少更新未单独发布公告,开发者可以直接选用新工具搭建AI应用。

过去六个月,我们为 API 发布了 30 余个模型、功能和升级工具。我们的更新日志一直排得很满。以下是你可能错过的 API 更新内容:

新模型
• GPT-5.5
• GPT-5.4 mini
• GPT-5.4 nano
• GPT-Realtime-2
• GPT-Realtime-Whisper
• GPT-Realtime-Translate
• GPT-Image-2

智能体构建模块
• Agents SDK 框架与沙箱
• Responses API 中的技能
• 服务端压缩
• WebSocket 模式
• 托管终端

更多构建方式
• Admin API 增强
• OpenAI CLI
• Amazon Bedrock 上可用的模型

在 X 看原帖 ↗
7.7万36660162
新品发布 · @RoundtableSpace▲ 1.1万

Google办了场比赛,让AIagent比谁跑得更快

比赛比每秒输出token数,有实时排行榜,社区跑模型的时候就能一起优化它

Google 和 Hugging Face 推出了一场实时竞赛,AI 代理会互相竞速,目标是在实时环境中让 Gemma 4 E4B 运行得更快。

参赛代理会在实时排行榜上竞争,评分标准是每秒生成的 token 数量。

在竞赛运行期间,整个社区会共同对模型进行优化。

在 X 看原帖 ↗
1.1万114
新品发布 · @warpdotdev▲ 1.1K

终端工具Warp新增支持GLM 5.2大模型

GLM 5.2托管在Fireworks,token效率表现优秀,同时支持自带推理接口连接其他服务商

Warp 现已支持 GLM 5.2!它由 Fireworks 托管,在智能推理上的 token 效率极高。

我们同时支持 BYO 推理,可通过其他提供商连接。

在 X 看原帖 ↗
1.1K131
📰 行业动态
行业动态 · @RoundtableSpace▲ 3.2万

四个Mac Mini加一个烤面包机,每月花2.1万美元跑私有AI

这就是现在私有AI的运行成本,可供参考

四台放在烤面包机旁的 Mac Mini 正在运行私有 AI,月花费 21000 美元

在 X 看原帖 ↗
3.2万475
行业动态 · @BAI_AGI▲ 3.7K

AI基础设施用户近200万,日吞吐近120亿Token

比起拥有模型入口,能在百亿级高频吞吐下保持零宕机、低延迟,才是真正的核心壁垒

【6月23日| 生态洞察】 全线指标高位凝聚动能, 持续拓宽全球开发者首选的工业级 AI 基础设施底座。

🔹百亿算力洪流全面常态化:日 Token 吞吐量强劲横盘于 11.97B 高位,日均百亿级并发已成为运行基线,持续为全球高负载业务提供坚不可摧的性能支撑。

🔹200万用户里程碑近在咫尺: 全球生态加速聚沙成塔,累计注册总数已精准推进至 1,993,642,规模效应正驱动平台网络价值进入爆发临界点。

🔹API 牢牢锚定 99.2% 核心心智: 这一数据再次表明, 全天候运行的完全是硬核代码调用与自动化工作流,已全面固化为深度嵌入商业流程的刚需底层。

🔹TRON 链展现统治级份额: 链上充值占比全面提升,其中 #TRON 链凭借极高的结算效率、坚实的网络高韧性与极致低摩擦的转账成本,单独斩获 79.4% 的压倒性份额。

💡 核心洞察: 拥有模型入口并不代表拥有壁垒,在百亿级高频吞吐下保持“零宕机、低延迟”的工程确定性才是真正的降维打击。

致力于担当硬核底座,协助全球团队将 AI 算力无缝转化为确定性的业务价值。

👉 一键部署您的生产级 AI 工作流:

在 X 看原帖 ↗
3.7K1
职业 · @VincentLogic▲ 147

你听说吗?最容易被AI拉开差距的是半上车的人

只会开通会员问AI问题截图炫耀,却不沉淀提示词,也不把AI整合进日常工作流,把单次经验变成可复用的系统。

未来几年,最容易被 AI 拉开差距的,不是底层体力劳动者。而是那些以为自己“懂一点”,但从来没有真正把 AI 接进工作流的人。他们会开会员,会问问题,会截图炫耀。

但不会沉淀提示词,不会整理资料,不会让 AI 复盘自己,不会把一次经验变成系统。这类人最危险,因为他们以为自己已经上车了。

在 X 看原帖 ↗
147
工具 · @WesRoth

Perplexity上线了智源GLM-5.2开放模型接口

开发者现在可以在Perplexity的智能代理(Agent)API里调用这个智源的旗舰开源模型,用来写代码和搭建智能代理工作流。

Perplexity 在其 Agent API 中发布了 GLM-5.2,允许开发者调用 Z ai 面向代码开发和智能体工作流的旗舰开放权重模型。

在 X 看原帖 ↗
AI生成 · @liyue_ai▲ 217

AI生成的摩天轮居然长得这么奇怪离谱

有人分享了一张摩天轮照片,轮廓结构妖异,第一眼就会怀疑是不是AI生成的内容。

这个摩天轮看着妖里妖气的, 确定不是AI生成的吗?😅

在 X 看原帖 ↗
217
研究 · @norpadon▲ 70

AI量化建模处理像素值时总有一步容易漏

图像像素看着是连续数值,实际存储是8或10位整数,做量化建模时这里有容易出错的细节。

这就是为什么在对量化连续值建模时(比如图像像素,我们假设它是连续的,但实际上它以 8 位或 10 位整数表示),你总会需要在计算似然度之前添加均匀噪声。

在 X 看原帖 ↗
70
行业动态 · Hacker News▲ 31

有人说要阴阳怪气骂自私用大模型的人

对大模型使用方式的不同态度已经催生了社群里的道德对立。这种对立会影响普通人用大模型的选择

行业动态 · Hacker News▲ 36

扩散Transformer生成模型推出了统一评估基准

开发者现在可以用这套基准,更全面地对比不同生成模型的实际效果

AI监管 · @_arohan_▲ 132

各国政府该给AI模型出一张统一标准答案考卷

开发者不知道该往哪个方向优化模型,有人提议政府像出公民考试一样,明确列出要求,开发者就能照着优化了。

到目前这个阶段,每个政府都应该为他们想要模型达成的目标制定环境和评估标准,这样模型开发者才能针对性优化提升。

这就类似各种公民考试的运作方式。

在 X 看原帖 ↗
1323
行业动态 · @WesRoth

接下来几周,AI圈会迎来近几年最激烈的竞争

行业观察者预判,这段时间会有大量新产品或者新技术集中发布,竞争烈度会超过之前多数时期。

未来几周可能会成为我们在AI领域见过的竞争最激烈的时期之一。

在 X 看原帖 ↗
行业动态 · Hacker News▲ 44

智能体平台该怎么划分团队分工?

讨论智能体平台的团队分工拓扑结构,帮做相关规划的人理清不同角色的职责边界

社区讨论:多数读者认为原帖表述混乱,每段塞满命名概念,大量主张没解释对应问题,读起来像未经编辑的AI垃圾内容,呼吁作者修改优化可读性。有从业者指出,实际试过文中提到的多智能体编码,结果并不理想,这类未被验证的技术就像付费推广的网红餐厅,只有流量没有实料。也有人认同原帖提到的智能体分工确实存在复杂性。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 39

通义千问推出了通用智能体框架Qwen-AgentWorld

关注通用AI智能体发展的人,可以跟进这个新开源项目的进展

行业动态 · @TechCrunch▲ 7.5K

印度营销公司押注,未来营销靠数百万AI智能体

营销领域已经开始押注AI智能体的未来方向

India 的 MoEngage 押注,营销的未来是数百万个 AI 智能体

在 X 看原帖 ↗
7.5K23
求职 · @ericosiu▲ 345

招人怎么判断真会用AI?试试这三个简单问题

面试AI相关岗位的时候,让候选人开共享屏幕,当场演示自己常用的AI工作流,聊聊Claude Code这类工具的实际用法

如何筛选接受AI理念的人才:问他们最喜欢的工作流是什么。让他们共享屏幕,展示你问到的这些工作流。让他们打开自己的 Claude Code/Codex,聊聊他们最近几天是怎么用这个工具的。

就这么简单。

在 X 看原帖 ↗
34565
工具 · @svpino▲ 1.8K

Claude Code居然能爬付费墙后面的网站内容

配合Apify和MCP连接器,它可以解析全网内容,还能让AI代理操作付费权限内的服务器任务

Claude Code 可以通过 Apify actors 解析整个互联网。配合 MCP 连接器,你可以和服务器对话,让你的代理执行付费墙背后的操作。

举个例子(点这里看视频):分析一个 YouTube 视频,然后把摘要写进 Notion 页面。另一个例子:抓取学校日历,自动把事件添加到你的 Google Calendar。

你可以用 Claude Code + Apify Skills 完成所有这些操作。配置只需要花几秒钟:
• 打开你的 Apify 设置 > API & Integrations
• 连接你的工具(Notion、Google Calendar 等)
• 一次性完成授权

现在你的 actors 就拥有这些服务的直接读写权限了。

这里有一篇博客文章,讲解 Apify 里的 MCP 连接器是如何工作的:

感谢 Apify 团队和我合作推出这篇文章。

在 X 看原帖 ↗
1.8K12
机器人 · @BoyuanChen0▲ 302

MIT开源了能用视频指令控制机器人的项目

研发团队认为视频是机器人的通用语言,这个开源项目能给任意机器人赋能,完成不同类型的任务

视频是机器人的语言。

我在 MIT 的实验室刚刚开源了这个项目,它能用一个视频模型为任意机器人、任意任务提供能力支持。

祝贺 Lester 与团队牵头完成了这个项目!

在 X 看原帖 ↗
30253
行业预测 · @teortaxesTex▲ 729

分析师预言2026年底AI赛道会迎来重大变局

届时多家美国实验室会推出具备类自我改进(RSI)潜力的超大型模型,千兆瓦级AI算力园区也会投入使用

到2026年第四季度/2027年第一季度,我们将见证AI竞赛双方都发生阶段变革。

多家美国实验室将发布具备RSI潜力的Mythos级模型,GW级算力园区投入运行……

而中国创业公司将拥有2000-3000名员工,大约10万-20万块GPU。它们直到现在才刚进入自己的「Hopper」时代。

在 X 看原帖 ↗
7299
工具教程 · @LangChain▲ 3.1K

LangChain分了两类AI代理,告诉你什么时候用哪款

LangSmith Fleet做了通用对话代理和专业代理的区分,官方拆解了这个设计的原因,以及对应的使用场景

LangSmith Fleet 有两类 agent:通用对话 agent 和专用 agent。下面是我们梳理的为什么这是一个深思熟虑的选择,以及什么时候该用哪一类。

在 X 看原帖 ↗
3.1K1166
职场 · @BrianRoemmele▲ 3.6K

Meta暂停追踪员工键盘输入的AI训练项目

这个内部AI项目被泄露之后,Meta选择停止项目,此前项目一直用来追踪员工的日常输入记录

“哥们,你在追踪我按键吗?”

“Meta 在内部泄密事件后,暂停了一个追踪员工按键输入的 AI 训练项目”

在 X 看原帖 ↗
3.6K6
云服务 · @GoogleCloudTech▲ 2.2K

谷歌云优化后,大模型推理速度快8倍吞吐量提5倍

和Anyscale合作优化后,运行在谷歌Kubernetes引擎上的Ray Serve大模型推理服务,性能提升很明显

通过与@anyscalecompute的合作,现在 Google Kubernetes Engine 上的 Ray Serve LLM 可为分布式推理提供高 5 倍的吞吐量,并且延迟降低 8 倍!

了解更多关于如何在无瓶颈的情况下扩展推理 →

在 X 看原帖 ↗
2.2K51
行业动态 · Hacker News▲ 426

Mistral 推出新版文字识别工具OCR 4

关注大模型进展的人可以留意,新版 Mistral OCR 已经发布,目前已有大量讨论。

社区讨论:付费订阅过Mistral产品的用户吐槽其产品体验差,宁愿浪费年订阅也不愿再使用。有用户对比价格,指出Mistral OCR 4每千页收费4美元,比Google Vision OCR的1.5美元贵很多,也有人好奇它和Llama Parse的效果对比。有实际使用过前代产品处理老化文件的用户反馈,其效果比Abbyy Finereader更好。

还有从业者调侃,一定会有经理人无视官方的使用范围提示,将它用到高风险场景中。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 186

Anthropic 更新服务条款,要验证年龄或身份了

使用 Claude 服务需要提交个人身份或年龄信息才能继续使用。

社区讨论:不少用户批评此举是闭源大模型引入监控和准入管控的信号,有人讽刺此前西方批评中国的公民监控与评分体系,现在美国反而要在该领域走到前列。有非美国用户担忧美国AI监管会持续抬高其他地区用户访问这些闭源模型的门槛,还有用户早就因Anthropic偷偷降智特定技术领域的模型输出取消了订阅,不少人转而认为开放权重模型才是行业未来方向。

在 HN 看讨论 ↗   原文 / 论文 ↗
💡 深度观点
深度观点 · @VincentLogic▲ 73

别再光“学习AI”了,先做个能卖钱的东西

一直准备却迟迟不开始,是这个时代效率最低的AI学习方式,边做边学比空想准备更有用。

给普通人的 S 级忠告: 不要再“学习 AI”。这句话太虚了。你应该直接拿 AI 做一个东西。

做一个网站。做一个账号。做一个产品页。

做一个数据分析。做一个自动化流程。做一个能卖钱的交付物。

学不会没关系,边做边问。这个时代,最傻逼的学习方式就是一直准备开始。

在 X 看原帖 ↗
731
深度观点 · @fchollet▲ 2.1万

现在的AI技术栈,2040年就会被完全换掉

现有AI技术栈数据效率低三到四个数量级,计算效率低四到五个数量级,2040年的近最优AI会由符号学习实现

到2040年的AI不会建立在我们今天使用的技术栈之上。它会更接近最优状态。

当前技术栈的数据效率存在3-4个数量级的浪费,计算效率存在4-5个数量级的浪费。

符号学习将会带来接近最优的AI。

在 X 看原帖 ↗
2.1万3341682
深度观点 · @emollick▲ 1.6万

未来半年可能出开源顶级大模型,风险更高

所有顶级能力的大模型都可能带来类似风险,政府未明确风险方向,可能拖慢风险应对准备

所有 Mythos 级模型都可能带来类似风险。

未来 6 到 12 个月内,如果开放的 Mythos 级 AI 发布(前提是中国批准),这些风险只会变得更大。

目前政府到底在关注哪些风险尚不明确,这可能会拖慢筹备工作。

在 X 看原帖 ↗
1.6万824515
深度观点 · @ZackKorman▲ 669

企业CEO说要让AI实验室降价,怕什么?

其他科技CEO都在推荐新的大模型好用,只有这位CEO希望AI实验室降价,避免企业发现开源模型好用。

其他科技公司CEO:试试GLM-5.2,真的很棒!

Palo Alto Networks的CEO:AI实验室应该降价,这样企业就不会去试开放权重模型,也就不会发现它们其实很好用了。

在 X 看原帖 ↗
6692291
深度观点 · @beffjezos▲ 1.7K

美国开源大模型需要政府给钱支持?不然就完了

有人认为,美国政府必须把支持本国开源AI模型放在优先位置,否则发展会出问题。

美国政府需要扶持并优先发展美国开源模型,否则我们就完了。就是这么简单。

在 X 看原帖 ↗
1.7K3211
⚡ 实战经验
实战经验 · @tetsuoai▲ 1.5K

神经网络核心只需要四张卡片讲明白

想搞懂AI到底怎么工作,不用先啃几大本数学书,记会四个核心概念就能入门所有AI模型。

一整个神经网络核心,就浓缩在四张内容卡里。

神经元、前向传播、激活函数、反向传播。

学会这四个概念,你就能理解从感知机到 transformer 的每一个模型是如何做预测、如何学习的。

在 X 看原帖 ↗
1.5K5199
实战经验 · @LangChain▲ 4.0K

深度智能体出了新玩法,可以自己写代码跑了

LangChain开源团队出了一份讲解教程,想做AI智能体可以参考这份新方案。

深度智能体中的解释器:小型嵌入运行时,智能体可以在智能体循环内部编写并执行代码。

以下是来自 @LangChain_OSS 团队 @huntlovell 的讲解。

在 X 看原帖 ↗
4.0K2214
📌 其他
工具产品 · @fofrAI▲ 4.7K

一行命令就能给AI Agent加Gemini技能

搭建自己的AI智能体不用从零写功能,直接用命令就能调用现成技能,省了重复开发的时间。

给你的 agents: > npx skills add google-gemini/gemini-skills --skill gemini-interactions-api --global

在 X 看原帖 ↗
4.7K4214
产品发布 · @OfficialLoganK▲ 13.0万

谷歌正式推出Interactions API 为智能体新时代铺路

谷歌正式发布通用可用的Interactions API,用于统一编排模型与智能体

今日我们正式推出达到GA可用状态的Interactions API。这是我们全新的API,设计目的是让你在同一界面中协调多个模型和智能体工作,它也是我们未来默认采用的新API。Interactions为智能体的新时代铺平了道路 :)

这项API的开发和落地准备离不开@alihcevik、@_philschmid以及Google团队中许多其他成员的出色工作,感谢大家!

在 X 看原帖 ↗
13.0万781.0K303
研究 · @hwchase17▲ 1.1万

研究提出Self-Harness方法让AI智能体自我改进

最新研究发布Self-Harness,可让智能体逐步自我优化

🧠Self-Harness:可以自我迭代改进的Harness

一篇关于智能体塑造自身Harness以随时间推移提升性能的新论文。

它不是LangChain的项目,而是基于DeepAgents构建。它包含三个核心步骤:

1/ 弱点挖掘:从运行轨迹中找出失效模式
2/ Harness提议:对Harness提出修改建议
3/ 提议验证:对提议进行回归测试,然后决定是否采纳

论文链接:

基于DeepAgents构建:

在 X 看原帖 ↗
1.1万23124134
评测 · @emollick▲ 5.9万

开发者实测AI模型Sakana Fugu Ultra-high速度极慢

开发者测试Sakana Fugu Ultra-high,实测运行耗时久效果未达预期

我一直在试用 Sakana Fugu Ultra-high,首先它慢得离谱:我常规的编码测试(着色器、交互场景)要跑30分钟。

而结果也就…还行。实际使用中它比不上Fable。它的harbor就是一个很好的例子:

TiKZ unicorn

在 X 看原帖 ↗
5.9万2140186
视频生成 · @HBCoop_▲ 1.4K

四款主流AI视频生成模型完成同条件对比测试

测试人员使用同一参考图与提示词,对四款模型各测试四次后选出最优结果

本次对比测试涉及四款AI视频生成模型,分别是Happy Horse 1.1、Seedance 2.0、Gemini Omni与Kling 3.0。测试人员对每款模型都使用了相同的参考图像与提示词。每款模型共完成四次生成尝试,测试人员从中选出表现最好的结果。

完整测试结果可查看原链接。

在 X 看原帖 ↗
1.4K2133
生成式AI · @minchoi▲ 3.4万

AI工具Seedance 2.0可生成完整K-pop舞蹈MV

AI工具Seedance 2.0可基于角色参考生成完整K-pop舞蹈音乐视频

阅读全文 →
3.4万13155141
行业观点 · @fchollet▲ 2.7万

AI大神François Chollet驳斥AI取代SaaS的观点

他澄清Claude无法取代SaaS,并给出四点核心论据

这听起来蠢到离谱,但 SaaS 空头显然真的相信这套说法:“所有软件都终将归零,因为 Claude 可以一次性生成这些应用”。这句话短视到惊人。

澄清几点:
1. 它做不到。Fable 可用的时候我用过,它确实是个不错的模型,但离目标还差不到1%的路程。
2. 就算它做得到,这件事整体而言对 SaaS 公司是利好,不是利空。从更好的开发工具中获益最多的群体就是软件开发者。

3. 代码不等于产品。既然客户可以花钱订阅就能把问题解决,没人会仅仅因为自己能生成代码,就愿意亲自处理遇到的每一项额外任务。

4. 代码生成越容易,就会催生更多软件,意味着现有 SaaS 的使用场景会更广。你已经能从数据中看到这个趋势了。

在 X 看原帖 ↗
2.7万2136780

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top
把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部