AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 6 月 17 日 14:08 更新 6432863 信号388 主题
试试:
今日焦点

Kimi K2.7 Code 与 Claude Opus 4.8 的效率之争令人震惊

Kimi K2.7 Code 并不试图通过比其他编码模型思考更长时间来获胜。 Moonshot AI 采取了相反的方法,构建了一个能够用更少的浪费推理步骤完成有用任务的编码工作者。

Kimi K2.7 Code 专注于有用速度

人工智能市场通常将更长的推理视为更好模型的标志。 当问题极其困难时,这个想法是有道理的。 复杂的架构、安全决策和不熟悉的技术问题可能需要更深入的分析。 然而,日常编码工作大多不是一生一次的工程挑战。 开发人员花费大量时间修复小错误、更新旧函数、编写测试、检查日志和清理重复代码。 这些工作仍然需要智能。 但并不总是需要最大的模型花几分钟探索每个可能的答案。

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

硬件 · @BrianRoemmele▲ 7.4万

民间工程师把整个AI大模型烧进了定制芯片里

不需要GPU,不需要CPU,也不需要云端,纯硅片就能运行带KV缓存的Transformer(大模型基础结构)。

惊为天人的硬件突破:一名开源车库工程师把一整个人工智能 Transformer 模型(含 KV 缓存)直接烧进了一块定制数字芯片:**没有用 GPU,没有用 CPU,也没有用云**。

就是纯硅直接运行 microGPT,仅 80 MHz 的频率就能实现每秒 56000+ 个 token,功耗还比一台计算器更低。

目前已经在 FPGA 上完成原型验证,现在已经能在一块微型 LCD 上拼写名字了。

这个项目叫 GateGPT,端侧 AI 的宏大未来已经到来。它现在就能、未来也肯定能扩展到大得多的模型。效率高得离谱,纯粹就是数字魔法。

在 X 看原帖 ↗
7.4万2251.4K613
工具 · @thesupermanmx▲ 5.2万

MIT开源了一个模型,能把照片转成可编辑CAD

CAD(计算机辅助设计)行业时薪150美元,现在上传一张手绘草图或者照片,就能生成完整的可编辑CAD文件。

MIT 刚刚开源了一个可能终结时薪 150 美元的 CAD 行业的模型。

它叫做 GenCAD。它可以把照片转换成完全可编辑的 CAD 工程文件。

你只需要上传一张草图或照片,它就能生成完整的参数化 3D 模型。

100% 开源。

在 X 看原帖 ↗
5.2万1501.1K1.4K
行业动态 · @StockSavvyShay▲ 6.1万

花6.43亿美元买公司,只为榨干AI芯片算力

这笔收购能帮开源大模型推理,从每块英伟达芯片里挤出更多tokens,最终降低客户的使用成本

$NBIS 已完成对 Eigen AI 的收购,交易金额约为 6.43 亿美元,此举进一步强化了 Nebius Token Factory 作为前沿推理平台的地位。

Eigen 能帮助 Nebius 从每一块 $NVDA 芯片中获得更多 token,提升性能、降低客户成本,并优化开源模型工作负载。

在 X 看原帖 ↗
6.1万711.1K72
新品发布 · @OsaurusAI▲ 4.7万

不用租AI了,现在可以免费本地拥有它

一直以来都是在线租用AI服务,现在有人放出可以本地运行的AI,不需要注册账号,完全免费开源。

你一直在租赁你的 AI。这才是拥有它该有的样子。

本地模型。无需账号。无需密钥。免费。开源。不依赖 Electron。

在 X 看原帖 ↗
4.7万43612604
新品发布 · @GabriCorso▲ 5.8万

分子生物AI更新,模型通过了湿实验验证

做药物研发或者分子设计的人,可以用新API调用模型,在可扩容GPU上运行

来自 Boltz 的重大消息——这是我们迄今为止规模最大的更新!🚀

今日我们发布了两款用于蛋白质和小分子设计的全新顶尖模型,它们经过了全面的湿实验验证,同时我们还推出了一款新API,支持你(或你的智能体)在任意工作场景中,在可扩展GPU上运行我们的所有模型!🔥

在 X 看原帖 ↗
5.8万150649369
行业动态 · @FinanceLancelot▲ 44.7万

微软换用开源DeepSeek做Copilot,想省成本

为了降低成本,微软计划给Copilot换用开源模型DeepSeek,改用按使用量收费的定价模式。

这对 Sam Altman 是一记重击,由于成本问题,微软计划将 $MSFT Copilot 改为按使用量定价,并改用开源 AI 模型 DeepSeek,而非 OpenAI。

在 X 看原帖 ↗
44.7万3284.2K502
语音AI · @Kanojiyaaakash1▲ 18.5万

Cartesia发布Sonic 3.5 SarvamAI完成3亿美元B轮融资

语音AI领域今日迎来两件大事,博主对新模型做了实测

🚨突发消息:语音 AI 的大日子。@Cartesia 刚刚发布了 Sonic 3.5,@SarvamAI 宣布完成 3 亿美元 B 轮融资——所以我决定亲自测试两者。相同脚本,并排对比。结果相当疯狂。Sonic 在情感表达、字母数字处理上领先一个量级。

同一句话,真实的情感。其中一个朗读就像真人一样有语调起伏,另一个则全程平淡。听过 Sonic 的版本后,你再也没法无视这种差距。

一次性验证码、订单 ID、账号和电话号码——这些是语音助手每天要读上百次的内容,也是很多文本转语音容易出问题的地方。来听 Sonic 如何把每个数字都读得清晰,还能像真人一样分组停顿。

印度的真实对话不会只停留在一种语言里。印地语、泰米尔语、泰卢固语、孟加拉语、马拉地语、卡纳达语、旁遮普语 🇮🇳。Sonic 在每次语言切换中都能保持同一个声音——温度一致,不会口音重置,不会在切换语言时卡壳。这种一致性最难做到,也正是它的优势所在。

在 X 看原帖 ↗
18.5万118714443
AI编码 · @dingyi▲ 18.8万

用户实测Zcode+GLM 5.2体验优于Codex

网友实测国产编码大模型组合,体验优于海外Codex

用了一天 Zcode + GLM 5.2,怎么体感比 Codex 还好很多呢。。。

一点都不卡,模型也很给力,基本没什么返工。完成一个重构任务,5 小时用量还剩很多。软件的很多设计细节做得也相当好。

有一种花 20 万买国产电车比 50 万的 BBA 还好的感觉,国产大模型变成国产新能源了!

在 X 看原帖 ↗
18.8万35559244
AI开发 · @vincemask▲ 6.3万

开发者分享Claude项目配置文件CLAUDE.md编写经验

开发者分享自身编写CLAUDE.md踩坑经验,提出不应堆砌信息

我靠,原来 CLAUDE.md 还有这么多门道,以前真是白写了。 以前我一直以为「信息越多越好」,于是把项目历史、技术决策、个人偏好,甚至「写干净代码」这种空泛要求,全塞进 CLAUDE.md。 结果就是:Claude 每次都像在几千行上下文里翻垃圾堆。

在 X 看原帖 ↗
6.3万76288535
开源开发 · @VincentLogic▲ 11.1万

开发者借MCP插件打通ChatGPT与Codex互补能力

Codex黑客松诞生MCP插件,打通ChatGPT与Codex实现能力互补

有人在 Codex 黑客松上做了一个 MCP 插件,把 ChatGPT 和 Codex 打通了 解决的问题很具体:GPT 5.5 Pro 是目前规划和调研最强的模型,但 Codex 里用不了。Codex 擅长执行,但规划能力不如 5.5 Pro 他的做法是用 MCP 把本地开发环境暴露给 ChatGPT,让 5.5 Pro

这个项目背后有一个更大的趋势值得注意 MCP 协议正在变成 AI 工具之间的“万能接口”。之前它主要是让 AI 连接外部数据源(数据库、浏览器、文件系统),现在开始用来让 AI 连接 AI 了 想一下这个组合的可能性: -Claude Code 负责写代码 + ChatGPT 5.5 Pro 负责架构设计 -Codex 负责执行任务 + Claude

在 X 看原帖 ↗
11.1万1279621.5K
前沿论文 · arXiv▲ 161

AI不再等你问:它自己决定何时开口

你习惯的AI是问答式的——你问它答。

你习惯的AI是问答式的——你问它答。但现实世界不等人:监控里冒烟、直播中闪过商品、视频通话里表情变化,这些瞬间转瞬即逝。这篇论文做了一个8B参数的视觉语言模型,它像人一样持续“看着”当前画面,自己决定要不要说话、什么时候说,甚至判断问题太难时交给后台更强的模型处理。

它没被训练过,却自己学会了引导用户切换App界面、对着幻灯片即兴讲课。在6个真实场景中,人类评分远超豆包和Gemini的视频通话助手。这是首个开源、可部署的实时交互模型,代码、数据、训练方法全公开。

它不是你明天就能用的工具,但指向一个方向:AI从“应答器”变成“在场者”。

实时交互 · 视觉语言模型 · 自主决策 · 开源
阅读全文 →
前沿论文 · arXiv▲ 104

AI记者来了:它写的新闻,每句话都能查来源

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?角度有没有被带偏?现在有个AI记者系统叫Data2Story,它把写新闻拆成找数据、做分析、选角度、设计可视化——每个环节都有专门AI负责,最狠的是它内置了一个「检查官」:每个数字、每张图、每段结论都必须能追溯到原始数据或代码,读者可以点开看它到底怎么算出来的。

它还会根据内容自动选呈现方式:讲地理就上交互地图,讲音乐就插音频,而不是千篇一律的折线图。在18篇真实新闻的对比测试中,它产出的故事在透明度和可验证性上甚至超过人类记者。当然,在选题创意和设计美感上,人类依然领先。

所以它不是你明天就能取代记者的工具,而是让记者多一个能自动查证、自动配图的搭档——以后你看到的数据新闻,可能背后就站着这样一个AI,而它说的每一句话,你都能自己查。

AI记者 · 数据新闻 · 可验证 · 多智能体 · 自动化新闻
阅读全文 →
开源 · @tleilax___▲ 6.1万

现在最好的付费代码AI居然是国产开源模型?

这款国产开源代码模型,只用了美国头部实验室不到5%的计算量,就达到了当前最好的代码效果。

所以你是在告诉我,目前花钱能买到的最佳编码模型,是一款只用了美国前沿实验室可用算力的大约5%训练出来的中国开源模型?

看来这就是给@TMTLongShort「开源模型正在落后」的论调钉棺材的最后一颗钉子了。

GLM 5.2现已上线Venice。这是@Zai_org的前沿开源模型,专为赋能智能体和长周期智能体编码构建,针对最难问题提供了High和Max两种推理模式。Pro用户可获得完全私有化的使用权限。

开源必须胜利。Fable 5和Anthropic发生的事,让现在这件事变得更加重要。Z ai刚刚发布了GLM 5.2,这是一款强到离谱的开源模型,性能超过Gemini 3.1 Pro,已经非常接近GPT 5.5和Opus 4.8。

- 在编码和智能体任务上有巨大提升
- 100万上下文窗口
- MIT许可证开放权重
- API定价与GLM 5.1一致

这才是我们真正需要的未来。

在 X 看原帖 ↗
6.1万5953093
学习 · @Muzamil_AI▲ 6.4K

整理了5家大厂官方免费学AI的地方

从AI安全基础到提示词工程,全都没有付费墙,内容都是做AI的公司自己出的。

阅读全文 →
6.4K64823
工具 · @Bitcoin188▲ 1.2万

有人把OpenAI Codex改成了全自动视频工厂

只需要输入一句话,就能搞定从脚本、分镜到剪辑、渲染的整条视频流水线,相关工具都放在GitHub开源。

阅读全文 →
1.2万36161178
机器人 · @Rewkang▲ 3.7万

Figure机器人直播让风投突然疯狂砸机器人了

过往机器人领域拿到的投资一直远少于AI,这次直播之后,投资圈出现了前所未有的新一轮兴趣。

FigureAI 这场直播对风投圈来说,是一个小型的 ChatGPT 时刻。

机器人领域的融资规模传统上一直落后于 AI 融资,但我们现在看到,投资者兴趣正在迎来前所未有的新浪潮。

这笔资金将会流向数据采集、供应链建设,还会推动更多人才进入这个行业。

在 X 看原帖 ↗
3.7万1216025
学习 · @shushant_l▲ 2.2K

有人整理了从入门到实用的分级AI学习路径

从认识AI是什么、大模型基础原理,到普通用户该怎么用提示词,分了两个级别整理归档。

阅读全文 →
2.2K166945
新品发布 · @CloudflareDev▲ 1.5万

GLM 5.2开源大模型上线Workers AI啦

GLM 5.2开源模型现在可以在Workers AI平台使用,平台成为本次发布的合作方,支持开源模型生态发展。

GLM 5.2 现已在 Workers AI 上线。

我们很高兴能成为首发合作伙伴,支持开源模型生态。

在 X 看原帖 ↗
1.5万1619325
实战经验 · @NFTCPS▲ 6.9K

从零手搓GPT,不用高级库全流程给你拆明白

想真正搞懂AI原理,不想只当调包侠,可以从这个仓库入门,用免费算力练一天就能出结果

天天喊着搞AI,结果你连Transformer是个啥都说不清?

有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链都有:

1️⃣ 数据下载、预处理、训练、生成一条龙
2️⃣ 训练数据用The Pile,22个来源825GB
3️⃣ tiktoken分词,存HDF5
4️⃣ 预训练之后还给SFT和RLHF的路子

改几个配置就能调大小。13M参数左右就开始拼对语法和单词,白嫖Colab或Kaggle的T4,练一天就出活。

想真懂原理、不想当调包侠,从这儿入门最干净。

在 X 看原帖 ↗
6.9K299181
深度观点 · @ArthurB▲ 3.2万

有人猜测中国开源大模型背后有这样一层逻辑

抛出一个关于中国推动开源模型的行业观点,供关注全球AI格局的人参考。

有一种理论:中国鼓励发布开源模型,是因为他们认为中国以外的客户无论如何都不会信任运行在中国数据中心里的模型。

所以他们能做到的最优策略,就是尝试侵蚀美国前沿实验室的边际收益,不让这些实验室更快实现能力复利增长。

在 X 看原帖 ↗
3.2万928141
新品发布 · @quantscience_▲ 1.9万

免费开源多智能体大语言模型交易框架上线了

想用大语言模型做量化交易的人,可以直接免费拿到这套基于Python的开源框架

🚨突发消息:一个全新的基于Python的开源多智能体LLM交易框架诞生了。它名叫TradingAgents。以下是它的功能介绍(以及如何免费获取):🧵

在 X 看原帖 ↗
1.9万38268398
实战经验 · @PierceZhang34▲ 4.5K

大模型算法也有专属LeetCode,入门进阶能刷题

想从只会看大模型理论,练到会写会调会优化,这里有分知识点的可运行练习,还有本地测试可以反复练

程序员小伙伴们刷起来 -- 大模型算法的leetcode LLM Algorithm Practice Lab 这是一个面向大模型入门到进阶的算法实战教程,聚焦 Python、PyTorch、Transformer、推理优化、显存管理与 CUDA/Triton 实战 把每个知识点做成可运行、可验证、可回顾的 Jupyter Notebook 练习,帮助你从“会看”走到“会写、会调、会优化” 本项目仅限于纯粹的大语言模型(LLM)领域,不包含 Diffusion 或多模态,并配备本地测试用例,提供可反复练习和回顾的学习路径 项目特点 高度垂直:专注 Transformer、MoE、量化、推理加速与显存优化 工程导向:使用 PyTorch、Triton 或 CUDA C++ 实现核心算子和系统逻辑 测试驱动:每道题都配套本地测试和性能验证 传送门👉

在 X 看原帖 ↗
4.5K1990103
行业动态 · @QuasarModels▲ 1.3万

一个小模型实验,刚发就冲上Hugging Face热搜第二页

开源社区已经做出适配版本,普通人可以在MacBook和本地设备上运行这个模型

Quasar 正在 Hugging Face 上成为热门趋势。介绍一下背景:HF 是 AI 模型的核心枢纽,所有重要的开源模型都托管在这里。

我们目前已经排到了第二页,和 Xiaomi、Qwen 以及 Liquid AI 并列,而这还只是我们小模型实验带来的成果!机器学习社区已经注意到了我们。

不只是 Bittensor 社区,更广阔的开源世界也在关注我们。开源社区已经做好了 MLX 和 GGUF 版本,所以 Quasar 可以在 MacBook 和本地 AI 部署环境上运行。我们才刚刚起步。

在 X 看原帖 ↗
1.3万3213410
新品发布 · @NotionHQ▲ 1.7万

Notion现在直接内置了GLM 5.2开源大模型

不用单独找API调用,做长周期任务可以直接在Notion里用这个新模型了

全新开放权重模型:GLM 5.2 现已登陆 Notion。

专为长周期任务构建。

由 @baseten 提供服务。

在 X 看原帖 ↗
1.7万1918632
实战经验 · @cj3214567667▲ 9.6K

想练AI Agent?这里有Codex保姆级完整教程

找不到Codex入门路径的人,可以跟着完整教学一步步学,学会指挥超级AI Agent,用AI放大自己的做事能力

火遍全网的codex到底怎么用?YouTube博主学长Ethan手把手教你:Codex从入门到进阶,保姆级完整教学。教你自主搭建工具、自动化处理各种事务的AI硬核能力,快速掌握指挥超级AI Agent的技巧。

适合想用AI放大能力的朋友!

在 X 看原帖 ↗
9.6K177888
行业动态 · @itsyourcode▲ 2.2万

新可验证数据AI代理拿了900万美元融资

刚完成种子轮融资,目前已经能直接分析超过十亿行的原始天气数据,无需多次编辑处理。

宣布推出 Probably:可验证数据代理

我们完成了 900 万美元种子轮融资,由 @a16z 和 @Accel 领投,将用于开发一款能够接收、转换、分析和可视化原始数据的 AI 代理。

以下是未经剪辑的单条拍摄视频,展示它分析来自 Clickhouse 的 10 亿+行 NOAA 天气数据👇

在 X 看原帖 ↗
2.2万147262
新品发布 · @AMD▲ 2.2万

3000亿参数大模型,现在能本地跑了?

新款AMD处理器提供最高192GB统一内存,可帮助开发者和创作者在本地运行300B+参数的大语言模型

AI 模型体积正变得越来越大,它们需要空间才能运行。🧠 @wccftech 重点报道了 AMD Ryzen AI Max PRO 400 Series 处理器,这款处理器最高配备 192GB 统一内存,可以帮助开发者和创作者在本地运行参数规模超过 300B 的大语言模型。

在 X 看原帖 ↗
2.2万3938334
实战经验 · @CycleDecoded▲ 3.8K

公众号AI全流程运营工具居然已经开源了

做公众号的人可以用这套自动化流程,把内容产出效率提5倍以上,项目完全开放可用。

别再纯手工写公众号了!分享一套刚开源的微信公众号 AI 运营全流程 Skill。这次不只是简单的 Prompt,而是直接打通了底层 AI Agent 生产力: 1️⃣ 选题与写稿:基于 OpenClaw / Claude Code 自动化抓取热点并生成大纲 2️⃣ 审稿与优化:利用 Codex 智能校对,精准规避敏感词与逻辑漏洞 3️⃣ 排版与配图:通过 Cursor 快速实现自动化样式编排,一键成文 实测这套流派把内容产出效率提升了 5 倍以上,完全打通了新媒体的“硅基工作流”。

项目完全开源,抓紧接入你的工作流: 👉 GitHub:

在 X 看原帖 ↗
3.8K197491
谷歌 · @LyalinDotCom▲ 150

谷歌开发者发文学习Gemini托管代理API新功能

开发者LyalinDotCom在社交平台发文,称饭后回来工作正在熟悉新Gemini托管代理API

LyalinDotCom与同事共进晚餐后回到工作岗位,抽出时间进行学习。他正在尝试进一步熟悉新Gemini Managed Agent API(Gemini托管代理应用编程接口)的工作方式。他在社交平台发文向网友提问,询问是否有人已经体验过这项新功能。

在 X 看原帖 ↗
15052
AI安全 · @manlikemishap▲ 1.5K

男子靠AI安全论点说服母亲投票给Bores

该男子来自纽约第12选区,称这套方法或对自己职业有利,尝试说服父亲失败

一名用户在𝕏(原推特)发文称,自己通过条理清晰的AI安全论述,说服了身为纽约第12选区选民的母亲,投票给Bores。这名用户表示,这件事可能对自己的职业发展有好处,他希望这套说服方法可以推广应用。

随后他更新了消息,这套方法没能说服自己的父亲。

在 X 看原帖 ↗
1.5K1734
AI开发 · @JinjingLiang▲ 3.0K

开发者JinjingLiang分享当前AI开发工作流配置

不同AI工具分别负责UI开发和高复杂度逻辑开发工作

开发者JinjingLiang在𝕏公开了自己当前使用AI工具进行开发的工作流程。

UI开发工作使用@grok Build内置的Composer-2.5,或是cursor-agent完成。

逻辑复杂度高的开发任务,则由Codex负责。

分享附带相关内容链接。

在 X 看原帖 ↗
3.0K26012
大模型 · @bi_9527zx▲ 2.5K

无需ChatGPT Plus 5分钟接入Codex加国产大模型国内直用

无需翻墙和每月20美元的Plus会员,提供三步新手零门槛操作方法

不用每月支付20美元订阅ChatGPT Plus会员。只需5分钟就能完成Codex与国产大模型的接入,不用翻墙,国内可直接使用,新手没有操作门槛。

第一步安装Codex:从OpenAI官网下载安装包,双击按默认设置完成安装,直接跳过官方登录界面即可。

第二步安装CC Switch:这款工具适合新手,一键完成配置修改,不用手动查找修改文件,也不会因为改崩出错。

第三步获取DeepSeek密钥:在DeepSeek官网充值10元就可以使用很长时间,价格便宜,完成密钥创建即可。

在 X 看原帖 ↗
2.5K24620
大语言模型 · @lidangzzz▲ 2.0万

用户实测GLM 5.2 新增支持百万长度上下文窗口

有实际购买使用GLM智谱会员的用户称,GLM 5.2已对齐Claude系列上下文能力

有实际购买GLM智谱会员并真实切换使用的用户表示,其他号称使用该服务的用户并非真实付费使用者,只有自己是真实付费使用。

GLM 5.2的最大改动是支持1M(100万token)上下文窗口,上下文处理能力终于和Claude系列对齐。

此前GLM 5.1的问题是无法适配Claude模型,使用Claude code时需要手动在设置中配置自动压缩、压缩阈值等一堆参数,如果在多个Docker(应用容器引擎)中运行,还需要额外进行手动配置。

在 X 看原帖 ↗
2.0万5017
具身智能 · @yueya_eth▲ 4.8K

Caspius定位为具身AI的数据层,解决真实数据需求

机器人学习家务操作依赖真实环境数据,模拟器难以满足这类数据需求

Caspius(@caspius_ai)的定位是具身AI(也叫物理AI)的数据层。

大模型可以从互联网文本中学习知识,但机器人的学习逻辑完全不同。机器人要掌握做饭、清洁、洗衣、组装、搬运这类技能,依赖的是视觉、动作、手眼协调、物体触感,以及真实环境中的细微变化。

这类数据很难通过模拟器生成解决。当前行业真正稀缺的,是大量来自真实世界的第一人称任务视频,覆盖不同家庭、不同物体、不同光线和不同人的动作方式。

目前这个项目还处于非常早期的阶段,参与人数不到50人,提前参与可以获得积分,后续会有相应优势。

在 X 看原帖 ↗
4.8K2454
科普 · @zhodonx▲ 1.8K

什么是智能体循环,为什么它对AI工作流很重要

解释智能体循环的基础概念,举例说明如何搭建面向周报生成的智能体循环

这是AI系列内容的第六期,主题是讲解什么是智能体循环。如果你曾花数小时在Codex或Claude上来回操作,每次AI出工作流错误时都要手动修正,问题通常可以追溯到一件事:智能体循环,或者说,缺少智能体循环。

如果需要AI完成的任务是生成指定主题的每周研究报告,搭建智能体循环的操作和直接给提示词有明显区别。直接操作通常是输入提示词“调研X”,之后让智能体调用连接工具自行处理。

搭建智能体循环时,你需要先写下两个核心内容,其中第一个是目标:生成一份完整的报告。

想了解更多关于循环工程的内容,可以查看原文链接。

在 X 看原帖 ↗
1.8K2652
商业 · @IBuzovskyi▲ 1.3万

AI代理HERMES可自动运营内容剪辑业务

单YouTube长视频可生成9条日更跨平台帖,单个账号月收入可达1000到4000美元

HERMES代理可以全自动运营内容剪辑生意。

从单条YouTube长视频出发,该代理可以在全平台生成每天9条 posts。

按照这套模式搭建的单个账号,每个月可以赚取1000到4000美元,也就是约合7000元到29000元人民币。

这套工作流程的第一步是,找到一位在YouTube制作长内容的创作者,内容形式可以是播客、直播或是教学内容。

在 X 看原帖 ↗
1.3万9130274
AI开发 · @tonysimons_▲ 2.3万

Hermes Agent可使用看板适配各类工作流程

分享Hermes Agent使用技巧:看板适配全场景工作流

⚕️ Hermes 今日贴士:你可以在 Hermes Agent 的任何工作流中使用看板。

✅ 深度研究。✅ 大型写作项目。✅ 编码。✅ 只要你说得出来的都可以。

这是让你的项目保持有序,让你的代理保持专注、牢牢锁定上下文的最佳方法。

在 X 看原帖 ↗
2.3万20202366
设计工具 · @dotey▲ 3.2万

baoyu-design skill支持本地生成导出MP4动画视频

开发者实现基于Claude Design的工具可本地导出MP4动画视频

baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不过很麻烦,效果也不是很好。 在这套 Skill 基础上,我已经实现了直接把动画导出成

应用案例

有个小技巧,就是它默认的生成结果是 HTML 的,可以在 Agent 内置的浏览器中打开这个 HTML,暂停视频播放,然后标记要修改的位置,让 Agent 去在标记的位置修改,可以做一些微调。

Codex 也可以的,但是效果要差不少

应用案例

在 X 看原帖 ↗
3.2万33177216
大模型 · @rasbt▲ 3.8万

开发者分享基于通义千问2.5-Coder-3B的VibeCoder初印象

基于通义千问旧基座后训练得到的VibeCoder性能表现出色

疯狂的模型!它居然用的是旧的 Qwen2.5-Coder-3B 架构,还通过他们的后训练体系取得了相当出色的性能。

我接下来几天会实际用它,看看 VibeCoder 的实际体验能不能配得上这个名字。但第一印象已经相当惊艳了!以上基于技术报告得出,

在 X 看原帖 ↗
3.8万45452352
AI能力 · @teodorio▲ 351

这款大模型居然第一次模拟出了稳定的心智

有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来

Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。

这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。

美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。

在 X 看原帖 ↗
3511131
商业 · @hwchase17▲ 507

AI企业现在给编码代理花的钱涨疯了

不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关

和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。

我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。

我们的实现方式如下:
1/ 准确、实时

在 X 看原帖 ↗
50732
AI工具 · @dotey▲ 336

Codex操控电脑的三种方式,整理好适用场景了

Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。

Spotify、Xcode、系统设置、iOS 模拟器,甚至

在 X 看原帖 ↗
336110
AI工具 · @LangChain▲ 1.6K

新推出的LangSmith Fleet,给用户提供两种代理选择

分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出

LangSmith Fleet 有两种类型的智能体:✅ 通用对话 ✅ 专业智能体。

@BraceSproul 讲解了我们为什么提供这种选择,以及每种智能体的适用场景。

在 X 看原帖 ↗
1.6K41
AI行业 · @_simonsmith▲ 35

有人给AI行业画了一张双维度发展坐标系

横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见

AI 领域并非一维的。我在此尝试绘制出它的两个维度,我还没有给它们命名,但我认为 X 轴是「自主性」,Y 轴是「智能」。

欢迎告诉我哪里错了,以及我漏掉了什么。

在 X 看原帖 ↗
3521
开源AI · @code_star▲ 112

大家都在猜Mistral年底会开源最大模型

有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim

祈祷@MistralAI能在今年年底开源他们有史以来最大的模型,并且把它命名为Le Chaton Slim。

在 X 看原帖 ↗
1126
前沿研究 · @Hesamation▲ 235

Anthropic报告:专家用Claude反而产出更多

同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。

专家能从 Claude 中获得更多价值~ 根据 Anthropic 的报告。这是因为: > 他们提出的问题 > 他们使用的词汇 > 以及引导 AI 的能力

在 X 看原帖 ↗
235112
深度观点 · @ericosiu▲ 135

现在最大的AI商机,还没多少公司摸透

想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道

当前AI领域最大的机遇,就是将循环应用于企业运营。大多数公司还没有想明白这件事。

以下几个例子可以帮你抢占先机:

在 X 看原帖 ↗
13522
新品发布 · @SERobinsonJr▲ 301

专门做SpaceX AI项目的工程公司成立了

这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统

SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。

它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。

The company

在 X 看原帖 ↗
30115
实战经验 · @togethercompute▲ 1.0K

换开源微调模型后,语音代理成本砍了六倍

想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求

@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:

→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成

在 X 看原帖 ↗
1.0K2131
实战经验 · @LangChain▲ 1.7K

Deep Agents核心能力有两分钟教程讲透了

想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力

Deep Agents深度解析第二部分 | 上下文管理

来自@SydneyRunkle的讲解,时长不到2分钟,介绍Deep Agents工具链中最重要的能力之一

在 X 看原帖 ↗
1.7K4165
前沿研究 · @togethercompute▲ 3.3K

测了大模型做游戏:贵十倍的模型做出来差不多

找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少

我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。

Opus 4.8 的价格是 MiniMax M3 的 15 倍。

GPT-5.5 的价格是 Nemotron 的 10 倍。

在 X 看原帖 ↗
3.3K5276
深度观点 · @fofrAI▲ 1.8K

AI能写喜剧的那天,才会迎来通用人工智能?

这是关于通用人工智能什么时候出现的一个判断。

当AI能够创作喜剧时,我们就拥有了AGI。

在 X 看原帖 ↗
1.8K130
实战经验 · @llama_index▲ 1.3K

好文档居然能帮AI agent省这么多成本时间

优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。

好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。

我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,

在 X 看原帖 ↗
1.3K41011
新品发布 · @LangChain▲ 821

不用事后加装 AI 智能体治理功能啦

搭建、观测和评估智能体的同一平台,就能直接启用规则管控

智能体治理不应该是事后硬接到智能体系统上的东西。

LangSmith LLM Gateway 允许你在构建、观测和评估智能体的同一平台上执行规则。

在 X 看原帖 ↗
8212134
深度观点 · @emollick▲ 4.4K

企业AI现在安稳,可能只是中场休息

当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合

我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!

但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。

在 X 看原帖 ↗
4.4K28712
前沿研究 · @dair_ai▲ 226

大语言模型智能体能探索看不见的环境吗?

这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。

大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。

智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……

在 X 看原帖 ↗
22633
新品发布 · @victormustar▲ 1.2K

端侧级别的大模型,现在开源放到社区了

智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案

GLM-5.2 现已上线 Hugging Face 🔥

对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。

——AI 与人类的未来,是开放的

在 X 看原帖 ↗
1.2K5263
实战经验 · @omarsar0▲ 3.0K

国产开源大模型GLM-5.2初步表现亮眼

在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉

在开放权重模型的前沿领域不浪费一点时间。从我看到的结果来看,GLM-5.2 表现十分出色。

我非常好奇它在长周期任务上的表现如何。

在 X 看原帖 ↗
3.0K4225
实战经验 · @GoogleAIStudio▲ 1.0万

不用写复杂代码,AI Studio直接做安卓APP

想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行

在 AI Studio 中创建安卓应用并在你的手机上运行,这是 @patloeber 整理的快速分步指南:

在 X 看原帖 ↗
1.0万19195114
深度观点 · @fchollet▲ 1.0万

要让所有人用上开源强AI,得靠符号学习?

要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。

要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。

符号学习将实现这一目标。

在 X 看原帖 ↗
1.0万1615726
大语言模型 · @omarsar0▲ 1.3万

AI从业者探讨大语言模型智能体验证器的重要性

指出优质验证器对LLM智能体至关重要,建议调优自定义验证器

验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。

我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。

如果你感兴趣,我在这里分享了更多相关内容:

如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。

在 X 看原帖 ↗
1.3万1210264
大模型 · @emollick▲ 1.1万

业内观点:开源大模型滞后闭源8-12个月需提前防护

专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护

假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。

现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。

在 X 看原帖 ↗
1.1万1927018
前沿论文 · arXiv▲ 95

机器人学几何:一个模型搞定感知、预测和动作

现在的机器人操作模型大多在2D图像上思考,但真实世界是3D的。

现在的机器人操作模型大多在2D图像上思考,但真实世界是3D的。这篇论文直接把一个预训练的3D几何模型(原本用于理解物体形状和空间关系)改造成机器人操控大脑:浅层负责看,中间插一个预测器猜未来,深层负责把预测变成动作。整个模型只用一套参数,就能同时理解语言指令、预测物体运动、输出机械臂该怎么动。

在模拟和真实机器人测试中,它比当前主流的视觉-语言-动作模型更准、更稳、更快,模型还更小。它不是你明天能用上的,但方向很明确:让机器人像人一样,用3D直觉而不是2D拼图来干活。

机器人操控 · 3D几何 · 基础模型 · 语言指令 · 世界模型
阅读全文 →
前沿论文 · arXiv▲ 88

你也能当导演:让AI生成视频像玩游戏一样自由

现在的AI视频生成,你只能给个开头,然后看它自由发挥。

现在的AI视频生成,你只能给个开头,然后看它自由发挥。DreamX-World 1.0让你能像玩游戏一样控制镜头:想拉近看细节?可以。

想回头看看刚才的场景?可以。甚至能在视频中间插入事件,比如让角色突然转身。

它把真实世界、游戏画面和电影风格都打通了,靠的是三个技术:一是用E-PRoPE编码让AI理解镜头位置,二是用记忆机制记住之前看到的画面,三是用强化学习保证画质不崩。在8张RTX 5090上能跑到16帧每秒,效果超过同类模型。虽然你明天用不上,但它展示了AI视频从“自动播放”走向“可交互”的方向。

AI视频生成 · 交互式世界模型 · 镜头控制 · 场景记忆 · 强化学习
阅读全文 →
前沿论文 · arXiv▲ 76

给AI配个专职探路员,省60%算力

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。微软这篇论文的做法很直接——给AI配一个专职的“探路子模型”,只负责快速定位代码位置,不参与写代码。这个探路员能并行搜索,返回精确的文件路径和行号,把主模型从翻仓库的杂活里解放出来。

在多个编程基准测试上,这套方案让修复成功率最高提升5.5%,同时主模型消耗的token减少60%。它不是你明天就能用的工具,但指明了一个方向:把大模型的任务拆成“找”和“做”两个角色,比让一个模型干所有事更聪明。

AI编程 · 代码助手 · 模型分工 · 效率提升
阅读全文 →
前沿论文 · arXiv▲ 71

3B小模型推理能力碾压千亿大模型

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。研究者用了一套「课程学习+强化学习+自蒸馏」的组合训练法,让模型在AIME数学竞赛上拿到94.3分(加测试时缩放能到97.1),在LiveCodeBench编程题上80.2%一次通过,甚至没见过的LeetCode新题也有96.1%的接受率。关键是,它没有牺牲指令遵循能力——IFEval得分93.4。

这挑战了「模型越大越聪明」的常识,暗示推理能力可以被压缩进小模型的核心,而大模型多出来的参数更多是用来装常识和长尾知识。它不是你明天能用上的,但如果你关心AI的效率和成本,这是一个信号:未来可能不需要烧钱堆参数,也能做出顶尖的推理AI。

小模型 · 推理能力 · 强化学习 · 数学竞赛 · 编程
阅读全文 →
前沿论文 · arXiv▲ 58

万亿参数模型:快思考与慢思考合体

大模型通常要么快但浅,要么深但慢。

大模型通常要么快但浅,要么深但慢。这篇报告展示了一个家族:Ling-2.6负责秒回,Ring-2.6负责深思,两者共享同一个基础模型,通过不同的训练策略实现分工。关键创新在于混合注意力机制(闪电注意力+MLA),让长文本处理更快;以及一个叫KPop的强化学习框架,让万亿参数模型在真实环境(编程、搜索、工具使用)中稳定学习。

它不是你能直接用的产品,但揭示了下一代AI系统如何兼顾速度和深度——就像人类大脑的直觉与理性系统。

万亿参数 · 快思考慢思考 · 混合注意力 · 强化学习 · 智能体
阅读全文 →
前沿论文 · arXiv▲ 28

老师不教梯度,只改题目:小模型也能学得更好

传统知识蒸馏让大模型当老师,小模型模仿它的输出,但老师太强时,小模型反而学偏——只记住老师最尖锐的答案,在没见过的问题上表现差。

传统知识蒸馏让大模型当老师,小模型模仿它的输出,但老师太强时,小模型反而学偏——只记住老师最尖锐的答案,在没见过的问题上表现差。这篇论文换了个思路:老师不直接教答案,而是把难题改写成两种选择题。一种把老师对的和小模型错的混在一起,让小模型分辨;另一种把小模型犯过的错集中展示,让它看清自己哪里不行。

这样小模型在自己能理解的范围内反复练,直到正确率过半才算毕业。在31个测试集上,小到0.8B参数的小模型,效果比传统蒸馏和强化学习都好。它不是你明天能用上的,但给了一个新方向:教AI不一定靠灌输,可以靠设计更好的题目。

知识蒸馏 · 小模型 · 提示工程 · 强化学习 · 教育启发
阅读全文 →
前沿论文 · arXiv▲ 27

让机器人看人干活学动作,效果更好

训练机器人需要大量操作数据,但让机器人自己动手收集又贵又慢。

训练机器人需要大量操作数据,但让机器人自己动手收集又贵又慢。这篇论文发现,人类第一视角视频(比如你戴个摄像头做菜)能当免费教材。他们搞了个叫ACE-EGO-0的框架,先把人类视频转成机器人能懂的“伪动作指令”,再和真机器人数据一起训练。

关键一招是:人类视频里有些动作不靠谱,他们给每个动作标了个“可信度”,靠谱的才重点学。结果在多个测试里拿了第一,还能直接用在真实双臂机器人上。虽然你明天用不上,但这是机器人学技能的新路子——不用再死磕昂贵的数据采集,看人类干活就行。

机器人训练 · 人类视频 · 动作学习 · VLA模型 · 数据融合
阅读全文 →
前沿论文 · arXiv▲ 25

AI做游戏?最强模型只拿41分

让AI从头到尾做一个能玩的游戏,比写代码难得多。

让AI从头到尾做一个能玩的游戏,比写代码难得多。研究者搞了个新测试GameCraft-Bench,让AI在Godot引擎里从零搭游戏,共140个任务。结果最强模型只完成41.46%,多数不到40%。

AI能搞出部分玩法,但做不出完整游戏——缺内容、缺视觉反馈、缺连贯呈现。它不是你明天能用上的,但告诉你:AI离独立做游戏还差得远。

AI游戏生成 · 编码智能体 · Godot引擎 · 基准测试
阅读全文 →
前沿论文 · arXiv▲ 24

城市街景渲染:物理模型+AI修复,视频更真更可控

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。这篇把两者拼起来——先用物理模型算出场景的材质、光照等属性,再用生成模型去修掉物理渲染留下的伪影和噪点。结果是你既能像调灯光一样控制场景(比如换时间、插个车进去),又能得到像实拍一样流畅的视频。

做自动驾驶仿真、数字城市、影视后期的人,这是你明天就能试的那种:它支持新视角重打光、夜间模拟、动态物体插入编辑,而且效果比纯物理或纯生成都好。

城市渲染 · 逆渲染 · 物理模型 · 生成模型 · 自动驾驶仿真
阅读全文 →
前沿论文 · arXiv▲ 23

AI医生不再非黑即白:用辩论式推理给出连续风险评分

医生看病人数据时,最烦AI给出一个“有风险/没风险”的二元结论——这太武断,而且不同病人之间没法比较。

医生看病人数据时,最烦AI给出一个“有风险/没风险”的二元结论——这太武断,而且不同病人之间没法比较。这篇论文让AI学会“自己跟自己辩论”:针对同一个病人,先列出支持“高风险”的理由,再列出支持“低风险”的理由,最后综合出一个连续的风险分数(比如0.7)。在三个医疗数据集上,这种辩论式推理把校准误差降低了81%,也就是说AI不再盲目自信或过度保守,给出的分数更可信。

同时,它还能把推理过程用自然语言写出来,医生可以检查AI到底看了哪些指标、怎么权衡的。虽然你明天用不上,但如果你关心医疗AI的可靠性,这是一个让AI从“黑箱判官”变成“可对话助手”的关键进展。

医疗AI · 临床预警 · 大语言模型 · 可解释性 · 风险校准
阅读全文 →
前沿论文 · arXiv▲ 23

AI模型也能接力跑:谁更靠谱谁领跑

大模型生成答案时,不同模型在不同阶段各有优劣。

大模型生成答案时,不同模型在不同阶段各有优劣。研究者发现,一个模型在生成过程中,如果对答案关键位置的置信度保持稳定,说明它走在靠谱的路径上;反之则可能出错。基于此,他们设计了一种“接力”方法:让多个模型同时生成,实时追踪每个模型在关键位置上的置信度变化,选出当前最靠谱的那个,把它的部分生成结果传给其他模型继续。

这样,不同模型可以在不同阶段贡献自己的优势,最终答案更准确。在多个推理任务上,这种方法比单个模型或简单集成效果更好。它不是你明天就能用上的工具,但展示了未来AI协作的一种可能:不是让一个模型包揽一切,而是让多个模型像接力赛一样,谁状态好谁领跑。

掩码扩散语言模型 · 模型集成 · 置信度动态 · 推理任务
阅读全文 →
前沿论文 · arXiv▲ 21

AI 助手学会从失败中进化,成本直降98%

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。VisualClaw 用两级筛选:先快速扔掉99%的重复帧,再只把关键画面和技能库压缩后上传,一小时只调用5-20次,成本降98%。更关键的是,它会在失败后自我进化——把错误记忆存下来,下次遇到类似问题直接调取改进后的策略,在 EgoSchema 视频问答上准确率最高提升15.8%。

这不是你明天就能下载的 App,但它是让 AI 助手从“烧钱且死板”走向“省钱且越用越聪明”的关键一步。

AI 助手 · 视频理解 · 成本优化 · 自我进化 · 边缘计算
阅读全文 →
前沿论文 · arXiv▲ 18

AI教授能看见你:它边讲边写边画,专为你调整

现在的AI教学助手大多是“念PPT”,不会根据你的反应调整板书、手势或语速。

现在的AI教学助手大多是“念PPT”,不会根据你的反应调整板书、手势或语速。这篇论文让AI像真人教授一样,在讲课的同时能做出“手写、高亮、下划线”等可见的教学动作,并且这些动作会随着你的学习进度和风格实时变化。核心是一个多智能体系统:一个“教授智能体”带领一群助手,先研究你的需求,再规划课程,最后在虚拟黑板上边讲边写,动作和台词严格对齐。

实验覆盖高中到研究生课程,专家评估显示其教学质量和个性化程度明显优于现有方案。它不是你明天就能用的产品,但指明了AI教育从“放录音”走向“真互动”的方向。

AI教学 · 多智能体 · 个性化学习 · 具身教学 · 教育技术
阅读全文 →
前沿论文 · arXiv▲ 17

AI学会自己挑经验、写笔记、升级,9B模型挑战397B

现在的AI智能体虽然能记住对话历史,但不会从经验中学习——就像你记了一堆笔记却从不翻看。

现在的AI智能体虽然能记住对话历史,但不会从经验中学习——就像你记了一堆笔记却从不翻看。这篇论文让AI学会一套完整的自我进化流程:先判断哪些经验有用,然后执行,再写成可复用的知识,最后整理归档。研究者用「快慢双循环」实现:快循环让AI在任务中实时调用记忆,慢循环则通过事后复盘把好经验蒸馏进模型本身。

结果,一个90亿参数的模型靠这套机制,在多个任务上超过了3970亿参数的巨无霸。它不是你明天能用上的,但指向了AI从「记忆增强」到「真正会学习」的转变。

自我进化 · 记忆管理 · 知识蒸馏 · 智能体 · 大模型
阅读全文 →
前沿论文 · arXiv▲ 14

给AI世界模型加个“坏世界”

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。但研究者发现,只要在照片上加上人眼几乎看不出的微小噪点,AI的“想象”就会彻底崩溃:画面扭曲、结构崩塌、动作失控。他们发明了一种叫BadWorld的攻击方法,不需要知道未来真实画面,也不需要预测你会怎么操作,就能让AI的预测完全跑偏。

这听起来很危险,但反过来想,它也能用来保护隐私——比如给你的照片加一层“隐形干扰”,让AI无法正确模拟你的行为。

世界模型 · 对抗攻击 · AI安全 · 隐私保护
阅读全文 →
前沿论文 · arXiv▲ 14

用一句话让机器人想象未来画面

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。这不是真的在动,而是机器人在脑子里“想象”出来的物理世界。Qwen-RobotWorld 把自然语言当作统一遥控器,让同一个模型能预测机械臂、自动驾驶、室内导航等不同场景的未来画面。

它靠一个60层双流扩散变压器,把语言和视频特征一层层融合,再喂进860万条视频-文本数据训练。结果在多个评测榜上排第一。它不是你明天就能用的产品,但它是让机器人学会“预演”动作后果的关键一步——就像人类做决定前先脑补一下。

世界模型 · 视频生成 · 机器人 · 语言控制 · 物理模拟
阅读全文 →
📑 前沿论文
前沿论文 · arXiv▲ 161

AI不再等你问:它自己决定何时开口

你习惯的AI是问答式的——你问它答。

你习惯的AI是问答式的——你问它答。但现实世界不等人:监控里冒烟、直播中闪过商品、视频通话里表情变化,这些瞬间转瞬即逝。这篇论文做了一个8B参数的视觉语言模型,它像人一样持续“看着”当前画面,自己决定要不要说话、什么时候说,甚至判断问题太难时交给后台更强的模型处理。

它没被训练过,却自己学会了引导用户切换App界面、对着幻灯片即兴讲课。在6个真实场景中,人类评分远超豆包和Gemini的视频通话助手。这是首个开源、可部署的实时交互模型,代码、数据、训练方法全公开。

它不是你明天就能用的工具,但指向一个方向:AI从“应答器”变成“在场者”。

实时交互 · 视觉语言模型 · 自主决策 · 开源
阅读全文 →
前沿论文 · arXiv▲ 104

AI记者来了:它写的新闻,每句话都能查来源

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?角度有没有被带偏?现在有个AI记者系统叫Data2Story,它把写新闻拆成找数据、做分析、选角度、设计可视化——每个环节都有专门AI负责,最狠的是它内置了一个「检查官」:每个数字、每张图、每段结论都必须能追溯到原始数据或代码,读者可以点开看它到底怎么算出来的。

它还会根据内容自动选呈现方式:讲地理就上交互地图,讲音乐就插音频,而不是千篇一律的折线图。在18篇真实新闻的对比测试中,它产出的故事在透明度和可验证性上甚至超过人类记者。当然,在选题创意和设计美感上,人类依然领先。

所以它不是你明天就能取代记者的工具,而是让记者多一个能自动查证、自动配图的搭档——以后你看到的数据新闻,可能背后就站着这样一个AI,而它说的每一句话,你都能自己查。

AI记者 · 数据新闻 · 可验证 · 多智能体 · 自动化新闻
阅读全文 →
前沿论文 · arXiv▲ 95

机器人学几何:一个模型搞定感知、预测和动作

现在的机器人操作模型大多在2D图像上思考,但真实世界是3D的。

现在的机器人操作模型大多在2D图像上思考,但真实世界是3D的。这篇论文直接把一个预训练的3D几何模型(原本用于理解物体形状和空间关系)改造成机器人操控大脑:浅层负责看,中间插一个预测器猜未来,深层负责把预测变成动作。整个模型只用一套参数,就能同时理解语言指令、预测物体运动、输出机械臂该怎么动。

在模拟和真实机器人测试中,它比当前主流的视觉-语言-动作模型更准、更稳、更快,模型还更小。它不是你明天能用上的,但方向很明确:让机器人像人一样,用3D直觉而不是2D拼图来干活。

机器人操控 · 3D几何 · 基础模型 · 语言指令 · 世界模型
阅读全文 →
前沿论文 · arXiv▲ 88

你也能当导演:让AI生成视频像玩游戏一样自由

现在的AI视频生成,你只能给个开头,然后看它自由发挥。

现在的AI视频生成,你只能给个开头,然后看它自由发挥。DreamX-World 1.0让你能像玩游戏一样控制镜头:想拉近看细节?可以。

想回头看看刚才的场景?可以。甚至能在视频中间插入事件,比如让角色突然转身。

它把真实世界、游戏画面和电影风格都打通了,靠的是三个技术:一是用E-PRoPE编码让AI理解镜头位置,二是用记忆机制记住之前看到的画面,三是用强化学习保证画质不崩。在8张RTX 5090上能跑到16帧每秒,效果超过同类模型。虽然你明天用不上,但它展示了AI视频从“自动播放”走向“可交互”的方向。

AI视频生成 · 交互式世界模型 · 镜头控制 · 场景记忆 · 强化学习
阅读全文 →
前沿论文 · arXiv▲ 76

给AI配个专职探路员,省60%算力

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。微软这篇论文的做法很直接——给AI配一个专职的“探路子模型”,只负责快速定位代码位置,不参与写代码。这个探路员能并行搜索,返回精确的文件路径和行号,把主模型从翻仓库的杂活里解放出来。

在多个编程基准测试上,这套方案让修复成功率最高提升5.5%,同时主模型消耗的token减少60%。它不是你明天就能用的工具,但指明了一个方向:把大模型的任务拆成“找”和“做”两个角色,比让一个模型干所有事更聪明。

AI编程 · 代码助手 · 模型分工 · 效率提升
阅读全文 →
前沿论文 · arXiv▲ 71

3B小模型推理能力碾压千亿大模型

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。研究者用了一套「课程学习+强化学习+自蒸馏」的组合训练法,让模型在AIME数学竞赛上拿到94.3分(加测试时缩放能到97.1),在LiveCodeBench编程题上80.2%一次通过,甚至没见过的LeetCode新题也有96.1%的接受率。关键是,它没有牺牲指令遵循能力——IFEval得分93.4。

这挑战了「模型越大越聪明」的常识,暗示推理能力可以被压缩进小模型的核心,而大模型多出来的参数更多是用来装常识和长尾知识。它不是你明天能用上的,但如果你关心AI的效率和成本,这是一个信号:未来可能不需要烧钱堆参数,也能做出顶尖的推理AI。

小模型 · 推理能力 · 强化学习 · 数学竞赛 · 编程
阅读全文 →
前沿论文 · arXiv▲ 58

万亿参数模型:快思考与慢思考合体

大模型通常要么快但浅,要么深但慢。

大模型通常要么快但浅,要么深但慢。这篇报告展示了一个家族:Ling-2.6负责秒回,Ring-2.6负责深思,两者共享同一个基础模型,通过不同的训练策略实现分工。关键创新在于混合注意力机制(闪电注意力+MLA),让长文本处理更快;以及一个叫KPop的强化学习框架,让万亿参数模型在真实环境(编程、搜索、工具使用)中稳定学习。

它不是你能直接用的产品,但揭示了下一代AI系统如何兼顾速度和深度——就像人类大脑的直觉与理性系统。

万亿参数 · 快思考慢思考 · 混合注意力 · 强化学习 · 智能体
阅读全文 →
前沿论文 · arXiv▲ 28

老师不教梯度,只改题目:小模型也能学得更好

传统知识蒸馏让大模型当老师,小模型模仿它的输出,但老师太强时,小模型反而学偏——只记住老师最尖锐的答案,在没见过的问题上表现差。

传统知识蒸馏让大模型当老师,小模型模仿它的输出,但老师太强时,小模型反而学偏——只记住老师最尖锐的答案,在没见过的问题上表现差。这篇论文换了个思路:老师不直接教答案,而是把难题改写成两种选择题。一种把老师对的和小模型错的混在一起,让小模型分辨;另一种把小模型犯过的错集中展示,让它看清自己哪里不行。

这样小模型在自己能理解的范围内反复练,直到正确率过半才算毕业。在31个测试集上,小到0.8B参数的小模型,效果比传统蒸馏和强化学习都好。它不是你明天能用上的,但给了一个新方向:教AI不一定靠灌输,可以靠设计更好的题目。

知识蒸馏 · 小模型 · 提示工程 · 强化学习 · 教育启发
阅读全文 →
前沿论文 · arXiv▲ 27

让机器人看人干活学动作,效果更好

训练机器人需要大量操作数据,但让机器人自己动手收集又贵又慢。

训练机器人需要大量操作数据,但让机器人自己动手收集又贵又慢。这篇论文发现,人类第一视角视频(比如你戴个摄像头做菜)能当免费教材。他们搞了个叫ACE-EGO-0的框架,先把人类视频转成机器人能懂的“伪动作指令”,再和真机器人数据一起训练。

关键一招是:人类视频里有些动作不靠谱,他们给每个动作标了个“可信度”,靠谱的才重点学。结果在多个测试里拿了第一,还能直接用在真实双臂机器人上。虽然你明天用不上,但这是机器人学技能的新路子——不用再死磕昂贵的数据采集,看人类干活就行。

机器人训练 · 人类视频 · 动作学习 · VLA模型 · 数据融合
阅读全文 →
前沿论文 · arXiv▲ 25

AI做游戏?最强模型只拿41分

让AI从头到尾做一个能玩的游戏,比写代码难得多。

让AI从头到尾做一个能玩的游戏,比写代码难得多。研究者搞了个新测试GameCraft-Bench,让AI在Godot引擎里从零搭游戏,共140个任务。结果最强模型只完成41.46%,多数不到40%。

AI能搞出部分玩法,但做不出完整游戏——缺内容、缺视觉反馈、缺连贯呈现。它不是你明天能用上的,但告诉你:AI离独立做游戏还差得远。

AI游戏生成 · 编码智能体 · Godot引擎 · 基准测试
阅读全文 →
前沿论文 · arXiv▲ 24

城市街景渲染:物理模型+AI修复,视频更真更可控

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。这篇把两者拼起来——先用物理模型算出场景的材质、光照等属性,再用生成模型去修掉物理渲染留下的伪影和噪点。结果是你既能像调灯光一样控制场景(比如换时间、插个车进去),又能得到像实拍一样流畅的视频。

做自动驾驶仿真、数字城市、影视后期的人,这是你明天就能试的那种:它支持新视角重打光、夜间模拟、动态物体插入编辑,而且效果比纯物理或纯生成都好。

城市渲染 · 逆渲染 · 物理模型 · 生成模型 · 自动驾驶仿真
阅读全文 →
前沿论文 · arXiv▲ 23

AI医生不再非黑即白:用辩论式推理给出连续风险评分

医生看病人数据时,最烦AI给出一个“有风险/没风险”的二元结论——这太武断,而且不同病人之间没法比较。

医生看病人数据时,最烦AI给出一个“有风险/没风险”的二元结论——这太武断,而且不同病人之间没法比较。这篇论文让AI学会“自己跟自己辩论”:针对同一个病人,先列出支持“高风险”的理由,再列出支持“低风险”的理由,最后综合出一个连续的风险分数(比如0.7)。在三个医疗数据集上,这种辩论式推理把校准误差降低了81%,也就是说AI不再盲目自信或过度保守,给出的分数更可信。

同时,它还能把推理过程用自然语言写出来,医生可以检查AI到底看了哪些指标、怎么权衡的。虽然你明天用不上,但如果你关心医疗AI的可靠性,这是一个让AI从“黑箱判官”变成“可对话助手”的关键进展。

医疗AI · 临床预警 · 大语言模型 · 可解释性 · 风险校准
阅读全文 →
前沿论文 · arXiv▲ 23

AI模型也能接力跑:谁更靠谱谁领跑

大模型生成答案时,不同模型在不同阶段各有优劣。

大模型生成答案时,不同模型在不同阶段各有优劣。研究者发现,一个模型在生成过程中,如果对答案关键位置的置信度保持稳定,说明它走在靠谱的路径上;反之则可能出错。基于此,他们设计了一种“接力”方法:让多个模型同时生成,实时追踪每个模型在关键位置上的置信度变化,选出当前最靠谱的那个,把它的部分生成结果传给其他模型继续。

这样,不同模型可以在不同阶段贡献自己的优势,最终答案更准确。在多个推理任务上,这种方法比单个模型或简单集成效果更好。它不是你明天就能用上的工具,但展示了未来AI协作的一种可能:不是让一个模型包揽一切,而是让多个模型像接力赛一样,谁状态好谁领跑。

掩码扩散语言模型 · 模型集成 · 置信度动态 · 推理任务
阅读全文 →
前沿论文 · arXiv▲ 21

AI 助手学会从失败中进化,成本直降98%

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。VisualClaw 用两级筛选:先快速扔掉99%的重复帧,再只把关键画面和技能库压缩后上传,一小时只调用5-20次,成本降98%。更关键的是,它会在失败后自我进化——把错误记忆存下来,下次遇到类似问题直接调取改进后的策略,在 EgoSchema 视频问答上准确率最高提升15.8%。

这不是你明天就能下载的 App,但它是让 AI 助手从“烧钱且死板”走向“省钱且越用越聪明”的关键一步。

AI 助手 · 视频理解 · 成本优化 · 自我进化 · 边缘计算
阅读全文 →
前沿论文 · arXiv▲ 18

AI教授能看见你:它边讲边写边画,专为你调整

现在的AI教学助手大多是“念PPT”,不会根据你的反应调整板书、手势或语速。

现在的AI教学助手大多是“念PPT”,不会根据你的反应调整板书、手势或语速。这篇论文让AI像真人教授一样,在讲课的同时能做出“手写、高亮、下划线”等可见的教学动作,并且这些动作会随着你的学习进度和风格实时变化。核心是一个多智能体系统:一个“教授智能体”带领一群助手,先研究你的需求,再规划课程,最后在虚拟黑板上边讲边写,动作和台词严格对齐。

实验覆盖高中到研究生课程,专家评估显示其教学质量和个性化程度明显优于现有方案。它不是你明天就能用的产品,但指明了AI教育从“放录音”走向“真互动”的方向。

AI教学 · 多智能体 · 个性化学习 · 具身教学 · 教育技术
阅读全文 →
前沿论文 · arXiv▲ 17

AI学会自己挑经验、写笔记、升级,9B模型挑战397B

现在的AI智能体虽然能记住对话历史,但不会从经验中学习——就像你记了一堆笔记却从不翻看。

现在的AI智能体虽然能记住对话历史,但不会从经验中学习——就像你记了一堆笔记却从不翻看。这篇论文让AI学会一套完整的自我进化流程:先判断哪些经验有用,然后执行,再写成可复用的知识,最后整理归档。研究者用「快慢双循环」实现:快循环让AI在任务中实时调用记忆,慢循环则通过事后复盘把好经验蒸馏进模型本身。

结果,一个90亿参数的模型靠这套机制,在多个任务上超过了3970亿参数的巨无霸。它不是你明天能用上的,但指向了AI从「记忆增强」到「真正会学习」的转变。

自我进化 · 记忆管理 · 知识蒸馏 · 智能体 · 大模型
阅读全文 →
前沿论文 · arXiv▲ 14

给AI世界模型加个“坏世界”

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。但研究者发现,只要在照片上加上人眼几乎看不出的微小噪点,AI的“想象”就会彻底崩溃:画面扭曲、结构崩塌、动作失控。他们发明了一种叫BadWorld的攻击方法,不需要知道未来真实画面,也不需要预测你会怎么操作,就能让AI的预测完全跑偏。

这听起来很危险,但反过来想,它也能用来保护隐私——比如给你的照片加一层“隐形干扰”,让AI无法正确模拟你的行为。

世界模型 · 对抗攻击 · AI安全 · 隐私保护
阅读全文 →
前沿论文 · arXiv▲ 14

用一句话让机器人想象未来画面

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。这不是真的在动,而是机器人在脑子里“想象”出来的物理世界。Qwen-RobotWorld 把自然语言当作统一遥控器,让同一个模型能预测机械臂、自动驾驶、室内导航等不同场景的未来画面。

它靠一个60层双流扩散变压器,把语言和视频特征一层层融合,再喂进860万条视频-文本数据训练。结果在多个评测榜上排第一。它不是你明天就能用的产品,但它是让机器人学会“预演”动作后果的关键一步——就像人类做决定前先脑补一下。

世界模型 · 视频生成 · 机器人 · 语言控制 · 物理模拟
阅读全文 →
🔬 前沿研究
前沿研究 · @dair_ai▲ 226

大语言模型智能体能探索看不见的环境吗?

这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。

大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。

智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……

在 X 看原帖 ↗
22633
前沿研究 · @togethercompute▲ 3.3K

测了大模型做游戏:贵十倍的模型做出来差不多

找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少

我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。

Opus 4.8 的价格是 MiniMax M3 的 15 倍。

GPT-5.5 的价格是 Nemotron 的 10 倍。

在 X 看原帖 ↗
3.3K5276
前沿研究 · @Hesamation▲ 235

Anthropic报告:专家用Claude反而产出更多

同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。

专家能从 Claude 中获得更多价值~ 根据 Anthropic 的报告。这是因为: > 他们提出的问题 > 他们使用的词汇 > 以及引导 AI 的能力

在 X 看原帖 ↗
235112
🚀 新品发布
新品发布 · @AMD▲ 2.2万

3000亿参数大模型,现在能本地跑了?

新款AMD处理器提供最高192GB统一内存,可帮助开发者和创作者在本地运行300B+参数的大语言模型

AI 模型体积正变得越来越大,它们需要空间才能运行。🧠 @wccftech 重点报道了 AMD Ryzen AI Max PRO 400 Series 处理器,这款处理器最高配备 192GB 统一内存,可以帮助开发者和创作者在本地运行参数规模超过 300B 的大语言模型。

在 X 看原帖 ↗
2.2万3938334
新品发布 · @GabriCorso▲ 5.8万

分子生物AI更新,模型通过了湿实验验证

做药物研发或者分子设计的人,可以用新API调用模型,在可扩容GPU上运行

来自 Boltz 的重大消息——这是我们迄今为止规模最大的更新!🚀

今日我们发布了两款用于蛋白质和小分子设计的全新顶尖模型,它们经过了全面的湿实验验证,同时我们还推出了一款新API,支持你(或你的智能体)在任意工作场景中,在可扩展GPU上运行我们的所有模型!🔥

在 X 看原帖 ↗
5.8万150649369
新品发布 · @NotionHQ▲ 1.7万

Notion现在直接内置了GLM 5.2开源大模型

不用单独找API调用,做长周期任务可以直接在Notion里用这个新模型了

全新开放权重模型:GLM 5.2 现已登陆 Notion。

专为长周期任务构建。

由 @baseten 提供服务。

在 X 看原帖 ↗
1.7万1918632
新品发布 · @quantscience_▲ 1.9万

免费开源多智能体大语言模型交易框架上线了

想用大语言模型做量化交易的人,可以直接免费拿到这套基于Python的开源框架

🚨突发消息:一个全新的基于Python的开源多智能体LLM交易框架诞生了。它名叫TradingAgents。以下是它的功能介绍(以及如何免费获取):🧵

在 X 看原帖 ↗
1.9万38268398
新品发布 · @OsaurusAI▲ 4.7万

不用租AI了,现在可以免费本地拥有它

一直以来都是在线租用AI服务,现在有人放出可以本地运行的AI,不需要注册账号,完全免费开源。

你一直在租赁你的 AI。这才是拥有它该有的样子。

本地模型。无需账号。无需密钥。免费。开源。不依赖 Electron。

在 X 看原帖 ↗
4.7万43612604
新品发布 · @CloudflareDev▲ 1.5万

GLM 5.2开源大模型上线Workers AI啦

GLM 5.2开源模型现在可以在Workers AI平台使用,平台成为本次发布的合作方,支持开源模型生态发展。

GLM 5.2 现已在 Workers AI 上线。

我们很高兴能成为首发合作伙伴,支持开源模型生态。

在 X 看原帖 ↗
1.5万1619325
新品发布 · @victormustar▲ 1.2K

端侧级别的大模型,现在开源放到社区了

智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案

GLM-5.2 现已上线 Hugging Face 🔥

对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。

——AI 与人类的未来,是开放的

在 X 看原帖 ↗
1.2K5263
新品发布 · @LangChain▲ 821

不用事后加装 AI 智能体治理功能啦

搭建、观测和评估智能体的同一平台,就能直接启用规则管控

智能体治理不应该是事后硬接到智能体系统上的东西。

LangSmith LLM Gateway 允许你在构建、观测和评估智能体的同一平台上执行规则。

在 X 看原帖 ↗
8212134
新品发布 · @SERobinsonJr▲ 301

专门做SpaceX AI项目的工程公司成立了

这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统

SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。

它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。

The company

在 X 看原帖 ↗
30115
📰 行业动态
行业动态 · @FinanceLancelot▲ 44.7万

微软换用开源DeepSeek做Copilot,想省成本

为了降低成本,微软计划给Copilot换用开源模型DeepSeek,改用按使用量收费的定价模式。

这对 Sam Altman 是一记重击,由于成本问题,微软计划将 $MSFT Copilot 改为按使用量定价,并改用开源 AI 模型 DeepSeek,而非 OpenAI。

在 X 看原帖 ↗
44.7万3284.2K502
行业动态 · @itsyourcode▲ 2.2万

新可验证数据AI代理拿了900万美元融资

刚完成种子轮融资,目前已经能直接分析超过十亿行的原始天气数据,无需多次编辑处理。

宣布推出 Probably:可验证数据代理

我们完成了 900 万美元种子轮融资,由 @a16z 和 @Accel 领投,将用于开发一款能够接收、转换、分析和可视化原始数据的 AI 代理。

以下是未经剪辑的单条拍摄视频,展示它分析来自 Clickhouse 的 10 亿+行 NOAA 天气数据👇

在 X 看原帖 ↗
2.2万147262
行业动态 · @QuasarModels▲ 1.3万

一个小模型实验,刚发就冲上Hugging Face热搜第二页

开源社区已经做出适配版本,普通人可以在MacBook和本地设备上运行这个模型

Quasar 正在 Hugging Face 上成为热门趋势。介绍一下背景:HF 是 AI 模型的核心枢纽,所有重要的开源模型都托管在这里。

我们目前已经排到了第二页,和 Xiaomi、Qwen 以及 Liquid AI 并列,而这还只是我们小模型实验带来的成果!机器学习社区已经注意到了我们。

不只是 Bittensor 社区,更广阔的开源世界也在关注我们。开源社区已经做好了 MLX 和 GGUF 版本,所以 Quasar 可以在 MacBook 和本地 AI 部署环境上运行。我们才刚刚起步。

在 X 看原帖 ↗
1.3万3213410
行业动态 · @StockSavvyShay▲ 6.1万

花6.43亿美元买公司,只为榨干AI芯片算力

这笔收购能帮开源大模型推理,从每块英伟达芯片里挤出更多tokens,最终降低客户的使用成本

$NBIS 已完成对 Eigen AI 的收购,交易金额约为 6.43 亿美元,此举进一步强化了 Nebius Token Factory 作为前沿推理平台的地位。

Eigen 能帮助 Nebius 从每一块 $NVDA 芯片中获得更多 token,提升性能、降低客户成本,并优化开源模型工作负载。

在 X 看原帖 ↗
6.1万711.1K72
开源 · @tleilax___▲ 6.1万

现在最好的付费代码AI居然是国产开源模型?

这款国产开源代码模型,只用了美国头部实验室不到5%的计算量,就达到了当前最好的代码效果。

所以你是在告诉我,目前花钱能买到的最佳编码模型,是一款只用了美国前沿实验室可用算力的大约5%训练出来的中国开源模型?

看来这就是给@TMTLongShort「开源模型正在落后」的论调钉棺材的最后一颗钉子了。

GLM 5.2现已上线Venice。这是@Zai_org的前沿开源模型,专为赋能智能体和长周期智能体编码构建,针对最难问题提供了High和Max两种推理模式。Pro用户可获得完全私有化的使用权限。

开源必须胜利。Fable 5和Anthropic发生的事,让现在这件事变得更加重要。Z ai刚刚发布了GLM 5.2,这是一款强到离谱的开源模型,性能超过Gemini 3.1 Pro,已经非常接近GPT 5.5和Opus 4.8。

- 在编码和智能体任务上有巨大提升
- 100万上下文窗口
- MIT许可证开放权重
- API定价与GLM 5.1一致

这才是我们真正需要的未来。

在 X 看原帖 ↗
6.1万5953093
硬件 · @BrianRoemmele▲ 7.4万

民间工程师把整个AI大模型烧进了定制芯片里

不需要GPU,不需要CPU,也不需要云端,纯硅片就能运行带KV缓存的Transformer(大模型基础结构)。

惊为天人的硬件突破:一名开源车库工程师把一整个人工智能 Transformer 模型(含 KV 缓存)直接烧进了一块定制数字芯片:**没有用 GPU,没有用 CPU,也没有用云**。

就是纯硅直接运行 microGPT,仅 80 MHz 的频率就能实现每秒 56000+ 个 token,功耗还比一台计算器更低。

目前已经在 FPGA 上完成原型验证,现在已经能在一块微型 LCD 上拼写名字了。

这个项目叫 GateGPT,端侧 AI 的宏大未来已经到来。它现在就能、未来也肯定能扩展到大得多的模型。效率高得离谱,纯粹就是数字魔法。

在 X 看原帖 ↗
7.4万2251.4K613
工具 · @thesupermanmx▲ 5.2万

MIT开源了一个模型,能把照片转成可编辑CAD

CAD(计算机辅助设计)行业时薪150美元,现在上传一张手绘草图或者照片,就能生成完整的可编辑CAD文件。

MIT 刚刚开源了一个可能终结时薪 150 美元的 CAD 行业的模型。

它叫做 GenCAD。它可以把照片转换成完全可编辑的 CAD 工程文件。

你只需要上传一张草图或照片,它就能生成完整的参数化 3D 模型。

100% 开源。

在 X 看原帖 ↗
5.2万1501.1K1.4K
学习 · @Muzamil_AI▲ 6.4K

整理了5家大厂官方免费学AI的地方

从AI安全基础到提示词工程,全都没有付费墙,内容都是做AI的公司自己出的。

阅读全文 →
6.4K64823
工具 · @Bitcoin188▲ 1.2万

有人把OpenAI Codex改成了全自动视频工厂

只需要输入一句话,就能搞定从脚本、分镜到剪辑、渲染的整条视频流水线,相关工具都放在GitHub开源。

阅读全文 →
1.2万36161178
机器人 · @Rewkang▲ 3.7万

Figure机器人直播让风投突然疯狂砸机器人了

过往机器人领域拿到的投资一直远少于AI,这次直播之后,投资圈出现了前所未有的新一轮兴趣。

FigureAI 这场直播对风投圈来说,是一个小型的 ChatGPT 时刻。

机器人领域的融资规模传统上一直落后于 AI 融资,但我们现在看到,投资者兴趣正在迎来前所未有的新浪潮。

这笔资金将会流向数据采集、供应链建设,还会推动更多人才进入这个行业。

在 X 看原帖 ↗
3.7万1216025
学习 · @shushant_l▲ 2.2K

有人整理了从入门到实用的分级AI学习路径

从认识AI是什么、大模型基础原理,到普通用户该怎么用提示词,分了两个级别整理归档。

阅读全文 →
2.2K166945
AI能力 · @teodorio▲ 351

这款大模型居然第一次模拟出了稳定的心智

有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来

Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。

这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。

美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。

在 X 看原帖 ↗
3511131
商业 · @hwchase17▲ 507

AI企业现在给编码代理花的钱涨疯了

不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关

和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。

我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。

我们的实现方式如下:
1/ 准确、实时

在 X 看原帖 ↗
50732
AI工具 · @dotey▲ 336

Codex操控电脑的三种方式,整理好适用场景了

Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。

Spotify、Xcode、系统设置、iOS 模拟器,甚至

在 X 看原帖 ↗
336110
AI工具 · @LangChain▲ 1.6K

新推出的LangSmith Fleet,给用户提供两种代理选择

分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出

LangSmith Fleet 有两种类型的智能体:✅ 通用对话 ✅ 专业智能体。

@BraceSproul 讲解了我们为什么提供这种选择,以及每种智能体的适用场景。

在 X 看原帖 ↗
1.6K41
AI行业 · @_simonsmith▲ 35

有人给AI行业画了一张双维度发展坐标系

横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见

AI 领域并非一维的。我在此尝试绘制出它的两个维度,我还没有给它们命名,但我认为 X 轴是「自主性」,Y 轴是「智能」。

欢迎告诉我哪里错了,以及我漏掉了什么。

在 X 看原帖 ↗
3521
开源AI · @code_star▲ 112

大家都在猜Mistral年底会开源最大模型

有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim

祈祷@MistralAI能在今年年底开源他们有史以来最大的模型,并且把它命名为Le Chaton Slim。

在 X 看原帖 ↗
1126
💡 深度观点
深度观点 · @ArthurB▲ 3.2万

有人猜测中国开源大模型背后有这样一层逻辑

抛出一个关于中国推动开源模型的行业观点,供关注全球AI格局的人参考。

有一种理论:中国鼓励发布开源模型,是因为他们认为中国以外的客户无论如何都不会信任运行在中国数据中心里的模型。

所以他们能做到的最优策略,就是尝试侵蚀美国前沿实验室的边际收益,不让这些实验室更快实现能力复利增长。

在 X 看原帖 ↗
3.2万928141
深度观点 · @fchollet▲ 1.0万

要让所有人用上开源强AI,得靠符号学习?

要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。

要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。

符号学习将实现这一目标。

在 X 看原帖 ↗
1.0万1615726
深度观点 · @emollick▲ 4.4K

企业AI现在安稳,可能只是中场休息

当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合

我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!

但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。

在 X 看原帖 ↗
4.4K28712
深度观点 · @fofrAI▲ 1.8K

AI能写喜剧的那天,才会迎来通用人工智能?

这是关于通用人工智能什么时候出现的一个判断。

当AI能够创作喜剧时,我们就拥有了AGI。

在 X 看原帖 ↗
1.8K130
深度观点 · @ericosiu▲ 135

现在最大的AI商机,还没多少公司摸透

想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道

当前AI领域最大的机遇,就是将循环应用于企业运营。大多数公司还没有想明白这件事。

以下几个例子可以帮你抢占先机:

在 X 看原帖 ↗
13522
⚡ 实战经验
实战经验 · @omarsar0▲ 3.0K

国产开源大模型GLM-5.2初步表现亮眼

在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉

在开放权重模型的前沿领域不浪费一点时间。从我看到的结果来看,GLM-5.2 表现十分出色。

我非常好奇它在长周期任务上的表现如何。

在 X 看原帖 ↗
3.0K4225
实战经验 · @llama_index▲ 1.3K

好文档居然能帮AI agent省这么多成本时间

优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。

好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。

我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,

在 X 看原帖 ↗
1.3K41011
实战经验 · @togethercompute▲ 1.0K

换开源微调模型后,语音代理成本砍了六倍

想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求

@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:

→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成

在 X 看原帖 ↗
1.0K2131
实战经验 · @CycleDecoded▲ 3.8K

公众号AI全流程运营工具居然已经开源了

做公众号的人可以用这套自动化流程,把内容产出效率提5倍以上,项目完全开放可用。

别再纯手工写公众号了!分享一套刚开源的微信公众号 AI 运营全流程 Skill。这次不只是简单的 Prompt,而是直接打通了底层 AI Agent 生产力: 1️⃣ 选题与写稿:基于 OpenClaw / Claude Code 自动化抓取热点并生成大纲 2️⃣ 审稿与优化:利用 Codex 智能校对,精准规避敏感词与逻辑漏洞 3️⃣ 排版与配图:通过 Cursor 快速实现自动化样式编排,一键成文 实测这套流派把内容产出效率提升了 5 倍以上,完全打通了新媒体的“硅基工作流”。

项目完全开源,抓紧接入你的工作流: 👉 GitHub:

在 X 看原帖 ↗
3.8K197491
实战经验 · @cj3214567667▲ 9.6K

想练AI Agent?这里有Codex保姆级完整教程

找不到Codex入门路径的人,可以跟着完整教学一步步学,学会指挥超级AI Agent,用AI放大自己的做事能力

火遍全网的codex到底怎么用?YouTube博主学长Ethan手把手教你:Codex从入门到进阶,保姆级完整教学。教你自主搭建工具、自动化处理各种事务的AI硬核能力,快速掌握指挥超级AI Agent的技巧。

适合想用AI放大能力的朋友!

在 X 看原帖 ↗
9.6K177888
实战经验 · @PierceZhang34▲ 4.5K

大模型算法也有专属LeetCode,入门进阶能刷题

想从只会看大模型理论,练到会写会调会优化,这里有分知识点的可运行练习,还有本地测试可以反复练

程序员小伙伴们刷起来 -- 大模型算法的leetcode LLM Algorithm Practice Lab 这是一个面向大模型入门到进阶的算法实战教程,聚焦 Python、PyTorch、Transformer、推理优化、显存管理与 CUDA/Triton 实战 把每个知识点做成可运行、可验证、可回顾的 Jupyter Notebook 练习,帮助你从“会看”走到“会写、会调、会优化” 本项目仅限于纯粹的大语言模型(LLM)领域,不包含 Diffusion 或多模态,并配备本地测试用例,提供可反复练习和回顾的学习路径 项目特点 高度垂直:专注 Transformer、MoE、量化、推理加速与显存优化 工程导向:使用 PyTorch、Triton 或 CUDA C++ 实现核心算子和系统逻辑 测试驱动:每道题都配套本地测试和性能验证 传送门👉

在 X 看原帖 ↗
4.5K1990103
实战经验 · @NFTCPS▲ 6.9K

从零手搓GPT,不用高级库全流程给你拆明白

想真正搞懂AI原理,不想只当调包侠,可以从这个仓库入门,用免费算力练一天就能出结果

天天喊着搞AI,结果你连Transformer是个啥都说不清?

有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链都有:

1️⃣ 数据下载、预处理、训练、生成一条龙
2️⃣ 训练数据用The Pile,22个来源825GB
3️⃣ tiktoken分词,存HDF5
4️⃣ 预训练之后还给SFT和RLHF的路子

改几个配置就能调大小。13M参数左右就开始拼对语法和单词,白嫖Colab或Kaggle的T4,练一天就出活。

想真懂原理、不想当调包侠,从这儿入门最干净。

在 X 看原帖 ↗
6.9K299181
实战经验 · @GoogleAIStudio▲ 1.0万

不用写复杂代码,AI Studio直接做安卓APP

想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行

在 AI Studio 中创建安卓应用并在你的手机上运行,这是 @patloeber 整理的快速分步指南:

在 X 看原帖 ↗
1.0万19195114
实战经验 · @LangChain▲ 1.7K

Deep Agents核心能力有两分钟教程讲透了

想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力

Deep Agents深度解析第二部分 | 上下文管理

来自@SydneyRunkle的讲解,时长不到2分钟,介绍Deep Agents工具链中最重要的能力之一

在 X 看原帖 ↗
1.7K4165
📌 其他
大模型 · @emollick▲ 1.1万

业内观点:开源大模型滞后闭源8-12个月需提前防护

专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护

假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。

现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。

在 X 看原帖 ↗
1.1万1927018
大语言模型 · @omarsar0▲ 1.3万

AI从业者探讨大语言模型智能体验证器的重要性

指出优质验证器对LLM智能体至关重要,建议调优自定义验证器

验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。

我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。

如果你感兴趣,我在这里分享了更多相关内容:

如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。

在 X 看原帖 ↗
1.3万1210264
开源开发 · @VincentLogic▲ 11.1万

开发者借MCP插件打通ChatGPT与Codex互补能力

Codex黑客松诞生MCP插件,打通ChatGPT与Codex实现能力互补

有人在 Codex 黑客松上做了一个 MCP 插件,把 ChatGPT 和 Codex 打通了 解决的问题很具体:GPT 5.5 Pro 是目前规划和调研最强的模型,但 Codex 里用不了。Codex 擅长执行,但规划能力不如 5.5 Pro 他的做法是用 MCP 把本地开发环境暴露给 ChatGPT,让 5.5 Pro

这个项目背后有一个更大的趋势值得注意 MCP 协议正在变成 AI 工具之间的“万能接口”。之前它主要是让 AI 连接外部数据源(数据库、浏览器、文件系统),现在开始用来让 AI 连接 AI 了 想一下这个组合的可能性: -Claude Code 负责写代码 + ChatGPT 5.5 Pro 负责架构设计 -Codex 负责执行任务 + Claude

在 X 看原帖 ↗
11.1万1279621.5K
大模型 · @rasbt▲ 3.8万

开发者分享基于通义千问2.5-Coder-3B的VibeCoder初印象

基于通义千问旧基座后训练得到的VibeCoder性能表现出色

疯狂的模型!它居然用的是旧的 Qwen2.5-Coder-3B 架构,还通过他们的后训练体系取得了相当出色的性能。

我接下来几天会实际用它,看看 VibeCoder 的实际体验能不能配得上这个名字。但第一印象已经相当惊艳了!以上基于技术报告得出,

在 X 看原帖 ↗
3.8万45452352
设计工具 · @dotey▲ 3.2万

baoyu-design skill支持本地生成导出MP4动画视频

开发者实现基于Claude Design的工具可本地导出MP4动画视频

baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不过很麻烦,效果也不是很好。 在这套 Skill 基础上,我已经实现了直接把动画导出成

应用案例

有个小技巧,就是它默认的生成结果是 HTML 的,可以在 Agent 内置的浏览器中打开这个 HTML,暂停视频播放,然后标记要修改的位置,让 Agent 去在标记的位置修改,可以做一些微调。

Codex 也可以的,但是效果要差不少

应用案例

在 X 看原帖 ↗
3.2万33177216
AI开发 · @vincemask▲ 6.3万

开发者分享Claude项目配置文件CLAUDE.md编写经验

开发者分享自身编写CLAUDE.md踩坑经验,提出不应堆砌信息

我靠,原来 CLAUDE.md 还有这么多门道,以前真是白写了。 以前我一直以为「信息越多越好」,于是把项目历史、技术决策、个人偏好,甚至「写干净代码」这种空泛要求,全塞进 CLAUDE.md。 结果就是:Claude 每次都像在几千行上下文里翻垃圾堆。

在 X 看原帖 ↗
6.3万76288535
AI编码 · @dingyi▲ 18.8万

用户实测Zcode+GLM 5.2体验优于Codex

网友实测国产编码大模型组合,体验优于海外Codex

用了一天 Zcode + GLM 5.2,怎么体感比 Codex 还好很多呢。。。

一点都不卡,模型也很给力,基本没什么返工。完成一个重构任务,5 小时用量还剩很多。软件的很多设计细节做得也相当好。

有一种花 20 万买国产电车比 50 万的 BBA 还好的感觉,国产大模型变成国产新能源了!

在 X 看原帖 ↗
18.8万35559244
语音AI · @Kanojiyaaakash1▲ 18.5万

Cartesia发布Sonic 3.5 SarvamAI完成3亿美元B轮融资

语音AI领域今日迎来两件大事,博主对新模型做了实测

🚨突发消息:语音 AI 的大日子。@Cartesia 刚刚发布了 Sonic 3.5,@SarvamAI 宣布完成 3 亿美元 B 轮融资——所以我决定亲自测试两者。相同脚本,并排对比。结果相当疯狂。Sonic 在情感表达、字母数字处理上领先一个量级。

同一句话,真实的情感。其中一个朗读就像真人一样有语调起伏,另一个则全程平淡。听过 Sonic 的版本后,你再也没法无视这种差距。

一次性验证码、订单 ID、账号和电话号码——这些是语音助手每天要读上百次的内容,也是很多文本转语音容易出问题的地方。来听 Sonic 如何把每个数字都读得清晰,还能像真人一样分组停顿。

印度的真实对话不会只停留在一种语言里。印地语、泰米尔语、泰卢固语、孟加拉语、马拉地语、卡纳达语、旁遮普语 🇮🇳。Sonic 在每次语言切换中都能保持同一个声音——温度一致,不会口音重置,不会在切换语言时卡壳。这种一致性最难做到,也正是它的优势所在。

在 X 看原帖 ↗
18.5万118714443
AI开发 · @tonysimons_▲ 2.3万

Hermes Agent可使用看板适配各类工作流程

分享Hermes Agent使用技巧:看板适配全场景工作流

⚕️ Hermes 今日贴士:你可以在 Hermes Agent 的任何工作流中使用看板。

✅ 深度研究。✅ 大型写作项目。✅ 编码。✅ 只要你说得出来的都可以。

这是让你的项目保持有序,让你的代理保持专注、牢牢锁定上下文的最佳方法。

在 X 看原帖 ↗
2.3万20202366
商业 · @IBuzovskyi▲ 1.3万

AI代理HERMES可自动运营内容剪辑业务

单YouTube长视频可生成9条日更跨平台帖,单个账号月收入可达1000到4000美元

HERMES代理可以全自动运营内容剪辑生意。

从单条YouTube长视频出发,该代理可以在全平台生成每天9条 posts。

按照这套模式搭建的单个账号,每个月可以赚取1000到4000美元,也就是约合7000元到29000元人民币。

这套工作流程的第一步是,找到一位在YouTube制作长内容的创作者,内容形式可以是播客、直播或是教学内容。

在 X 看原帖 ↗
1.3万9130274
科普 · @zhodonx▲ 1.8K

什么是智能体循环,为什么它对AI工作流很重要

解释智能体循环的基础概念,举例说明如何搭建面向周报生成的智能体循环

这是AI系列内容的第六期,主题是讲解什么是智能体循环。如果你曾花数小时在Codex或Claude上来回操作,每次AI出工作流错误时都要手动修正,问题通常可以追溯到一件事:智能体循环,或者说,缺少智能体循环。

如果需要AI完成的任务是生成指定主题的每周研究报告,搭建智能体循环的操作和直接给提示词有明显区别。直接操作通常是输入提示词“调研X”,之后让智能体调用连接工具自行处理。

搭建智能体循环时,你需要先写下两个核心内容,其中第一个是目标:生成一份完整的报告。

想了解更多关于循环工程的内容,可以查看原文链接。

在 X 看原帖 ↗
1.8K2652
具身智能 · @yueya_eth▲ 4.8K

Caspius定位为具身AI的数据层,解决真实数据需求

机器人学习家务操作依赖真实环境数据,模拟器难以满足这类数据需求

Caspius(@caspius_ai)的定位是具身AI(也叫物理AI)的数据层。

大模型可以从互联网文本中学习知识,但机器人的学习逻辑完全不同。机器人要掌握做饭、清洁、洗衣、组装、搬运这类技能,依赖的是视觉、动作、手眼协调、物体触感,以及真实环境中的细微变化。

这类数据很难通过模拟器生成解决。当前行业真正稀缺的,是大量来自真实世界的第一人称任务视频,覆盖不同家庭、不同物体、不同光线和不同人的动作方式。

目前这个项目还处于非常早期的阶段,参与人数不到50人,提前参与可以获得积分,后续会有相应优势。

在 X 看原帖 ↗
4.8K2454
大语言模型 · @lidangzzz▲ 2.0万

用户实测GLM 5.2 新增支持百万长度上下文窗口

有实际购买使用GLM智谱会员的用户称,GLM 5.2已对齐Claude系列上下文能力

有实际购买GLM智谱会员并真实切换使用的用户表示,其他号称使用该服务的用户并非真实付费使用者,只有自己是真实付费使用。

GLM 5.2的最大改动是支持1M(100万token)上下文窗口,上下文处理能力终于和Claude系列对齐。

此前GLM 5.1的问题是无法适配Claude模型,使用Claude code时需要手动在设置中配置自动压缩、压缩阈值等一堆参数,如果在多个Docker(应用容器引擎)中运行,还需要额外进行手动配置。

在 X 看原帖 ↗
2.0万5017
大模型 · @bi_9527zx▲ 2.5K

无需ChatGPT Plus 5分钟接入Codex加国产大模型国内直用

无需翻墙和每月20美元的Plus会员,提供三步新手零门槛操作方法

不用每月支付20美元订阅ChatGPT Plus会员。只需5分钟就能完成Codex与国产大模型的接入,不用翻墙,国内可直接使用,新手没有操作门槛。

第一步安装Codex:从OpenAI官网下载安装包,双击按默认设置完成安装,直接跳过官方登录界面即可。

第二步安装CC Switch:这款工具适合新手,一键完成配置修改,不用手动查找修改文件,也不会因为改崩出错。

第三步获取DeepSeek密钥:在DeepSeek官网充值10元就可以使用很长时间,价格便宜,完成密钥创建即可。

在 X 看原帖 ↗
2.5K24620
AI开发 · @JinjingLiang▲ 3.0K

开发者JinjingLiang分享当前AI开发工作流配置

不同AI工具分别负责UI开发和高复杂度逻辑开发工作

开发者JinjingLiang在𝕏公开了自己当前使用AI工具进行开发的工作流程。

UI开发工作使用@grok Build内置的Composer-2.5,或是cursor-agent完成。

逻辑复杂度高的开发任务,则由Codex负责。

分享附带相关内容链接。

在 X 看原帖 ↗
3.0K26012
AI安全 · @manlikemishap▲ 1.5K

男子靠AI安全论点说服母亲投票给Bores

该男子来自纽约第12选区,称这套方法或对自己职业有利,尝试说服父亲失败

一名用户在𝕏(原推特)发文称,自己通过条理清晰的AI安全论述,说服了身为纽约第12选区选民的母亲,投票给Bores。这名用户表示,这件事可能对自己的职业发展有好处,他希望这套说服方法可以推广应用。

随后他更新了消息,这套方法没能说服自己的父亲。

在 X 看原帖 ↗
1.5K1734
谷歌 · @LyalinDotCom▲ 150

谷歌开发者发文学习Gemini托管代理API新功能

开发者LyalinDotCom在社交平台发文,称饭后回来工作正在熟悉新Gemini托管代理API

LyalinDotCom与同事共进晚餐后回到工作岗位,抽出时间进行学习。他正在尝试进一步熟悉新Gemini Managed Agent API(Gemini托管代理应用编程接口)的工作方式。他在社交平台发文向网友提问,询问是否有人已经体验过这项新功能。

在 X 看原帖 ↗
15052

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top
把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部