AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 6 月 17 日 19:09 更新 6472883 信号391 主题
试试:
今日焦点

Kimi K2.7 Code 与 Claude Opus 4.8 的效率之争令人震惊

Kimi K2.7 Code 并不试图通过比其他编码模型思考更长时间来获胜。 Moonshot AI 采取了相反的方法,构建了一个能够用更少的浪费推理步骤完成有用任务的编码工作者。

Kimi K2.7 Code 专注于有用速度

人工智能市场通常将更长的推理视为更好模型的标志。 当问题极其困难时,这个想法是有道理的。 复杂的架构、安全决策和不熟悉的技术问题可能需要更深入的分析。 然而,日常编码工作大多不是一生一次的工程挑战。 开发人员花费大量时间修复小错误、更新旧函数、编写测试、检查日志和清理重复代码。 这些工作仍然需要智能。 但并不总是需要最大的模型花几分钟探索每个可能的答案。

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

硬件 · @BrianRoemmele▲ 8.1万

民间工程师把整个AI模型直接烧进芯片里

一位车库工程师做了一块定制芯片,把完整Transformer大模型(带KV缓存)直接烧进去,不用GPU、CPU,也不用云,开机就能跑。

令人震撼的硬件突破:一名开源车库工程师将一整个AI Transformer模型(含KV缓存)直接烧录进了一块定制数字芯片:没有GPU,没有CPU,没有云。

只靠纯硅运行microGPT,在仅80 MHz的频率下达到了56,000+ tokens/秒的速度。而且它的能耗比一台计算器还低。

目前已在FPGA上完成原型,现在已经能在一块小型LCD上拼出名字了。

这就是GateGPT,端侧AI的宏大未来已经到来。这项技术可以也必将扩展到更大的模型上。

效率高得离谱。纯粹的数字魔法。

在 X 看原帖 ↗
8.1万2451.6K688
新品发布 · @thesupermanmx▲ 5.4万

MIT开源了能把照片转成CAD模型的AI工具

时薪150美元的CAD服务,现在有了全开源免费的替代路径,成本直接降到零。

MIT 刚刚开源了一款可能终结每小时 150 美元 CAD 行业的模型。它名叫 GenCAD。

它可以将照片转换为完全可编辑的 CAD 程序。你只需要上传一张草图或照片,它就能生成完整的参数化 3D 模型。

100% 开源。

在 X 看原帖 ↗
5.4万1601.2K1.4K
前沿研究 · @aimlapi▲ 43.6万

同个prompt写可玩游戏,GLM-5.2比Opus更快更便宜

相同任务下,GLM-5.2完成了全部游戏机制,耗时更短,花费也更低。

GLM-5.2 现已在 AI/ML API 上可用!我们用同一个提示词,让它和 Opus 4.8 一次性生成一个可游玩的 Backrooms 游戏。

Opus 实现了手电筒功能,但无法奔跑也不能暂停。GLM-5.2 则做全了所有机制。

Opus:用时 2 分 14 秒,花费 1.94 美元

GLM:用时 1 分 08 秒,花费 0.37 美元

文档、指南和设置教程在下方:

在 X 看原帖 ↗
43.6万27371126
新品发布 · @GabriCorso▲ 7.1万

分子蛋白设计又出两个最新验证的大模型

做生物研发相关工作,可以用新API在可扩展GPU上运行这些模型

来自 Boltz 的重大消息——这是我们迄今为止规模最大的更新!🚀

今天我们发布了两款用于蛋白质和小分子设计的全新顶尖模型,它们经过了 extensive wet lab 验证,同时我们还推出了全新 API,可让你(或你的智能体)在任何工作场景下,依托可扩展 GPU 运行我们的全部模型!🔥

在 X 看原帖 ↗
7.1万168761418
行业动态 · @thaiscbranco_▲ 97.3万

新公司拿了1850万美元,要终结劣质AI内容

现有AI擅长生成客观内容,但审美判断仍不到位。这家公司要做数据和基础架构,帮AI学会审美判断,先从设计领域做起。

我们很荣幸推出 Taste Labs。我们的使命是终结 AI 垃圾内容。

我们正在打造数据与基础设施层,为 AI 模型和智能体赋予品味。

今天我们结束隐身模式,宣布完成 1850 万美元种子轮融资,由 @CRV 和 @AmplifyPartners 共同领投。

AI 已经搞定了客观领域,让生成任何内容都变得容易。但它给人的感觉仍然不对劲。如今,挑战在于判断力:什么是合适的,什么符合你的风格,什么算得上出色。

这要求我们把一个模糊、主观的领域,转化成可以衡量和编码的东西。我们从设计领域切入。要解决这个问题,需要分两个方向推进:基础模型层和智能体层。

- 我们已经和顶级前沿实验室合作,评估并改进他们的模型,打造合适的后训练数据和强化学习环境。

- 我们也和应用层公司合作,为他们的智能体构建上下文与验证工具,帮助它们产出更优质、更贴合品牌、更有创意的输出。

我们想要一个 AI 输出让人感觉自然舒服的未来。如果你也对这个使命充满热情,加入我们吧!

在 X 看原帖 ↗
97.3万1502.5K1.8K
开源 · @ollama▲ 12.5万

Ollama上线GLM-5.2开源大模型,支持100万token上下文

面向长周期编码与智能体任务的最强开源编码模型现已上线

🤯 GLM-5.2 已发布——专为长周期编码和智能体任务构建,现在拥有稳定支持的1M token上下文窗口。

它是目前最强的开源编码模型!现已在 Ollama 云服务上线,部署在美国最新的 @NVIDIAAI Blackwell 数据中心GPU上。

隐私政策与零[原文此处截断]

模型页面:

在 X 看原帖 ↗
12.5万1691.8K446
行业动态 · @FinanceLancelot▲ 44.7万

微软换用开源DeepSeek做Copilot,想省成本

为了降低成本,微软计划给Copilot换用开源模型DeepSeek,改用按使用量收费的定价模式。

这对 Sam Altman 是一记重击,由于成本问题,微软计划将 $MSFT Copilot 改为按使用量定价,并改用开源 AI 模型 DeepSeek,而非 OpenAI。

在 X 看原帖 ↗
44.7万3284.2K502
语音AI · @Kanojiyaaakash1▲ 18.5万

Cartesia发布Sonic 3.5 SarvamAI完成3亿美元B轮融资

语音AI领域今日迎来两件大事,博主对新模型做了实测

🚨突发消息:语音 AI 的大日子。@Cartesia 刚刚发布了 Sonic 3.5,@SarvamAI 宣布完成 3 亿美元 B 轮融资——所以我决定亲自测试两者。相同脚本,并排对比。结果相当疯狂。Sonic 在情感表达、字母数字处理上领先一个量级。

同一句话,真实的情感。其中一个朗读就像真人一样有语调起伏,另一个则全程平淡。听过 Sonic 的版本后,你再也没法无视这种差距。

一次性验证码、订单 ID、账号和电话号码——这些是语音助手每天要读上百次的内容,也是很多文本转语音容易出问题的地方。来听 Sonic 如何把每个数字都读得清晰,还能像真人一样分组停顿。

印度的真实对话不会只停留在一种语言里。印地语、泰米尔语、泰卢固语、孟加拉语、马拉地语、卡纳达语、旁遮普语 🇮🇳。Sonic 在每次语言切换中都能保持同一个声音——温度一致,不会口音重置,不会在切换语言时卡壳。这种一致性最难做到,也正是它的优势所在。

在 X 看原帖 ↗
18.5万118714443
AI编码 · @dingyi▲ 18.8万

用户实测Zcode+GLM 5.2体验优于Codex

网友实测国产编码大模型组合,体验优于海外Codex

用了一天 Zcode + GLM 5.2,怎么体感比 Codex 还好很多呢。。。

一点都不卡,模型也很给力,基本没什么返工。完成一个重构任务,5 小时用量还剩很多。软件的很多设计细节做得也相当好。

有一种花 20 万买国产电车比 50 万的 BBA 还好的感觉,国产大模型变成国产新能源了!

在 X 看原帖 ↗
18.8万35559244
开源开发 · @VincentLogic▲ 11.1万

开发者借MCP插件打通ChatGPT与Codex互补能力

Codex黑客松诞生MCP插件,打通ChatGPT与Codex实现能力互补

有人在 Codex 黑客松上做了一个 MCP 插件,把 ChatGPT 和 Codex 打通了 解决的问题很具体:GPT 5.5 Pro 是目前规划和调研最强的模型,但 Codex 里用不了。Codex 擅长执行,但规划能力不如 5.5 Pro 他的做法是用 MCP 把本地开发环境暴露给 ChatGPT,让 5.5 Pro

这个项目背后有一个更大的趋势值得注意 MCP 协议正在变成 AI 工具之间的“万能接口”。之前它主要是让 AI 连接外部数据源(数据库、浏览器、文件系统),现在开始用来让 AI 连接 AI 了 想一下这个组合的可能性: -Claude Code 负责写代码 + ChatGPT 5.5 Pro 负责架构设计 -Codex 负责执行任务 + Claude

在 X 看原帖 ↗
11.1万1279621.5K
前沿论文 · arXiv▲ 161

AI不再等你问:它自己决定何时开口

你习惯的AI是问答式的——你问它答。

你习惯的AI是问答式的——你问它答。但现实世界不等人:监控里冒烟、直播中闪过商品、视频通话里表情变化,这些瞬间转瞬即逝。这篇论文做了一个8B参数的视觉语言模型,它像人一样持续“看着”当前画面,自己决定要不要说话、什么时候说,甚至判断问题太难时交给后台更强的模型处理。

它没被训练过,却自己学会了引导用户切换App界面、对着幻灯片即兴讲课。在6个真实场景中,人类评分远超豆包和Gemini的视频通话助手。这是首个开源、可部署的实时交互模型,代码、数据、训练方法全公开。

它不是你明天就能用的工具,但指向一个方向:AI从“应答器”变成“在场者”。

实时交互 · 视觉语言模型 · 自主决策 · 开源
阅读全文 →
前沿论文 · arXiv▲ 104

AI记者来了:它写的新闻,每句话都能查来源

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?角度有没有被带偏?现在有个AI记者系统叫Data2Story,它把写新闻拆成找数据、做分析、选角度、设计可视化——每个环节都有专门AI负责,最狠的是它内置了一个「检查官」:每个数字、每张图、每段结论都必须能追溯到原始数据或代码,读者可以点开看它到底怎么算出来的。

它还会根据内容自动选呈现方式:讲地理就上交互地图,讲音乐就插音频,而不是千篇一律的折线图。在18篇真实新闻的对比测试中,它产出的故事在透明度和可验证性上甚至超过人类记者。当然,在选题创意和设计美感上,人类依然领先。

所以它不是你明天就能取代记者的工具,而是让记者多一个能自动查证、自动配图的搭档——以后你看到的数据新闻,可能背后就站着这样一个AI,而它说的每一句话,你都能自己查。

AI记者 · 数据新闻 · 可验证 · 多智能体 · 自动化新闻
阅读全文 →
开源 · @DarioCpx▲ 2.2万

微软投千亿给OpenAI,转头转用国产开源模型

有人说国产开源DeepSeek模型性价比很高,哪怕微软已经给OpenAI投了上千亿,也开始转向用它。

DeepSeek 开源模型的性价比高到什么程度?哪怕微软在 OpenAI 这个烧钱大坑里亏了几千亿之后,都转用它了。

再说一遍,一切都在按照我之前告诉过你的方向发展。

在 X 看原帖 ↗
2.2万5335537
大模型 · @vercel_dev▲ 1.3万

GLM 5.2开放权重,还支持100万token上下文

智谱GLM 5.2支持处理百万长度的文本,适合处理整个项目级的长代码工程,现在已经开放权重可以用了。

GLM 5.2 已在 AI Gateway 可用。它是 @Zai_org 首个拥有 1M token 上下文窗口的模型,专为长周期、项目级工程任务构建。模型 ID:`zai/glm-5.2`

GLM 5.2 是开放权重模型,在代码编写和智能体循环中表现出色。又是一天,又有一个超棒的开源模型诞生了!

Kimi 2.7 和 GLM 5.2 正处于激烈竞争中。今日起,它就已和 Opus 4.8、GPT 5.5 一同上线 ChatLLM。

在 X 看原帖 ↗
1.3万2022422
AI代理 · @rauchg▲ 3.5K

做AI代理最难的,居然不是写AI本身

做能帮你自动干活的AI代理,最难的部分不是训练大模型,而是搞定权限、令牌这些对接现有服务的琐碎环节,明明AGI已经摆在那了。

构建智能体最难的部分,其实不是构建智能体本身。难的是数据。

讽刺的是,难的是搞清楚 OAuth、令牌、凭证、权限范围……

我们已经有 AGI 摆在那,就等解锁使用了。

Vercel Connect 同时解决了安全性和易用性问题。用起来体验很棒。

在 X 看原帖 ↗
3.5K7607
工具 · @0x0SojalSec▲ 4.2K

给逆向工程师出了AI插件,一键看懂诡异代码

做二进制逆向分析的工具IDA Pro出了AI插件,点一下就能自动解释奇怪的代码逻辑,还能自动给函数重命名,提示漏洞点。

这是适用于 IDA Pro 9+ 的 AI 驱动逆向工程插件。

它支持一键解释,可立刻理解怪异控制流,还提供智能自动重命名建议、漏洞提示、语义图、RAG 搜索与文档。

对逆向工程、恶意软件分析从业者和 CTF 玩家来说,这是能彻底改变游戏规则的工具。

在 X 看原帖 ↗
4.2K279480
机器人 · @Rewkang▲ 3.9万

FigureAI直播把投资人胃口勾起来了,机器人要火

一直以来机器人领域拿到的投资都远少于AI,这次FigureAI的直播展示,让风投对机器人的兴趣达到了新的高度。

FigureAI 这场直播对风投而言是一次迷你 ChatGPT 时刻。

机器人领域的融资规模传统上一直落后于 AI 融资,但我们现在正迎来前所未有的新一轮投资者兴趣浪潮。

这股浪潮会传导到数据收集、供应链搭建环节,还会推动更多人才进入这个行业。

在 X 看原帖 ↗
3.9万1316628
大模型 · @XFreeze▲ 8.6K

马斯克的Grok 4.3现在能在AWS上直接用了

xAI的Grok 4.3是侧重推理的大模型,现在已经放到亚马逊AWS的Bedrock平台,企业可以直接在AWS环境里用它开发产品。

Grok 4.3 现已在 Amazon Bedrock 上线。

企业现在可以直接在 AWS 内部使用 xAI 的推理优先模型进行开发。

Grok 4.3 支持可配置推理强度、强大的工具调用、指令遵循、结构化输出、响应流式传输,以及智能体工作流。

AWS 表示,它特别适合客户支持、网页开发、判例法研究、金融文档问答、搜索、聊天,以及多轮企业工作流。

xAI 目前正将 Grok 直接接入企业已经在使用的基础设施中。

在 X 看原帖 ↗
8.6K2113515
行业动态 · @itsyourcode▲ 2.3万

能处理十亿行数据的AI数据代理拿到了九百万美元融资

刚拿到融资的创业项目,已经放出了分析超十亿行原始数据的未剪辑演示

宣布推出 Probably:可验证数据代理。

我们完成了由 @a16z 和 @Accel 领投的 900 万美元种子轮融资,用于开发一款能够摄取、转换、分析和可视化原始数据的 AI 代理。

下面是一段未经剪辑的单镜视频,演示分析来自 Clickhouse 的 10 亿+行 NOAA 气象数据 👇

在 X 看原帖 ↗
2.3万147364
新品发布 · @CommandCodeAI▲ 4.2K

GLM-5.2开源推理模型上线,100万上下文窗口

花1美元开通入门套餐就能用,还包含10美元使用额度,更新后就能直接安装使用

GLM-5.2 现已在 Command Code 上线!这是一个前沿开源推理模型,专为长周期任务构建。

100万上下文窗口。强大推理能力。开源可用。

1美元Go套餐及10美元使用额度以上的订阅都可使用!!

$ npm i -g command-code@latest

在 X 看原帖 ↗
4.2K711310
深度观点 · @tleilax___▲ 3.1万

当前最强编程开源模型,只用了美企5%算力

此前有观点认为开源AI模型已经落后,现在有人打破了这个判断,算力投入小也能训练出顶尖水平的模型。

所以你是在告诉我,目前花钱能买到的最强代码模型,是一个只用了美国前沿实验室可用算力约5%训练出来的中国开源模型?

看来这就是@TMTLongShort“开源模型正在落后”这个论点的最后一根棺材钉了。

在 X 看原帖 ↗
3.1万2020781
新品发布 · @AskVenice▲ 2.8万

智谱GLM 5.2开源模型上线,支持Pro用户完全私有

用来驱动智能代理和长周期智能代理编程,有高低两种推理模式处理高难度问题,需要Pro用户使用。

GLM 5.2 现已在 Venice 上线。

这是 @Zai_org 推出的前沿开源模型,专为驱动智能体和长周期智能体编程构建,针对最高难度问题提供了 High 和 Max 两种推理模式。

Pro 用户可以获得完全私有部署的使用权限。

在 X 看原帖 ↗
2.8万2619112
新品发布 · @quantscience_▲ 2.1万

免费开源多智能体LLM交易框架发布了

做量化交易可以直接用这套开源框架搭建策略,不需要从零开始开发。

🚨突发消息:Python 推出了全新开源多智能体 LLM 交易框架。它名叫 TradingAgents。下面介绍它的功能(以及如何免费获取它):🧵

在 X 看原帖 ↗
2.1万40287428
新品发布 · @NotionHQ▲ 2.0万

Notion上线了新开源权重大模型GLM 5.2

长期任务场景用上了新模型,有需要可以去Notion体验这个新模型

全新开放权重模型:GLM 5.2 现已在 Notion 可用。

专为长周期任务构建。

由 @baseten 提供服务。

在 X 看原帖 ↗
2.0万2020733
深度观点 · @ai_for_success▲ 1.5万

开源大模型性能追上闭源顶级模型了

这次放出的GLM 5.2,性能超过Gemini 3.1 Pro,接近GPT 5.5和Opus 4.8,代码和智能体任务都有大幅提升,而且完全开源可商用

开源必须胜利。现在发生在Fable 5和Anthropic身上的事,让这件事变得比以往更重要。

Z ai刚刚发布了GLM 5.2,这是一个强到离谱的开源模型,性能超过了Gemini 3.1 Pro,已经非常接近GPT 5.5和Opus 4.8。

- 编码和智能体任务性能大幅提升
- 1M上下文窗口
- MIT许可开放权重
- API定价与GLM 5.1一致

这才是我们真正需要的未来。

在 X 看原帖 ↗
1.5万2422930
行业动态 · @AMD▲ 2.8万

本地就能跑3000亿参数大模型,它做到了

开发者和创作者不用靠云端算力,在本地设备就能运行超大参数大语言模型

AI 模型体量越来越大,它们需要运行空间。🧠

@wccftech 重点报道了 AMD Ryzen AI Max PRO 400 Series 处理器,该处理器最高配备 192GB 统一内存,可帮助开发者和创作者在本地运行参数量超过 300B 的大语言模型。

在 X 看原帖 ↗
2.8万4946145
新品发布 · @CloudflareDev▲ 2.0万

GLM 5.2开源模型现已上线Workers AI平台

Cloudflare成为GLM 5.2的发布合作伙伴,持续支持开源模型生态发展

GLM 5.2 现已上线 Workers AI。

我们很高兴能成为首发合作方,支持开源模型生态。

在 X 看原帖 ↗
2.0万1729636
新品发布 · @OsaurusAI▲ 6.5万

终于能自己拥有AI了,不用租也不用注册

一直用的云端AI都是按月付费租用,现在出了本地运行的开源版本,不用注册账号也不用申请密钥,完全免费

你一直在租赁你的AI。这就是拥有它的样子。

本地模型。无需账号。无需密钥。免费。开源。不基于Electron。

在 X 看原帖 ↗
6.5万59819833
新品发布 · @vercel▲ 4.6K

Vercel推出新框架,就像Next.js给AI代理用

做AI代理开发的开发者,可以获得开箱即用的开发框架支持,不用从零搭建项目结构

推出 eve,一个智能体框架。

目录结构:𝚊𝚐𝚎𝚗𝚝/ 𝚊𝚐𝚎𝚗𝚝.𝚝𝚜 𝚒𝚗𝚜𝚝𝚛𝚞𝚌𝚝𝚒𝚘𝚗𝚜.𝚖𝚍 𝚝𝚘𝚘𝚕𝚜/ 𝚜𝚔𝚒𝚕𝚕𝚜/ 𝚜𝚊𝚗𝚍𝚋𝚘𝚡/ 𝚜𝚌𝚑𝚎𝚍𝚞𝚕𝚎𝚜/

它就像是智能体领域的 Next.js。

在 X 看原帖 ↗
4.6K136022
工具产品 · @thsottiaux▲ 6.1K

Codex工具居然不限OpenAI模型还能用开源

已经用Codex开发的人,不用绑定OpenAI模型,更换其他开源模型也能继续用这套工具

提醒一下,你可以将 Codex App、CLI 和 SDK 用于任何开源模型,并非只能用于 OpenAI 模型。

在 X 看原帖 ↗
6.1K2629379
实战经验 · @QuasarModels▲ 1.4万

小团队做的开源AI模型,已经冲上热门榜第二页

开源社区已经做出能在Mac和本地运行的版本,这个小型实验已经被整个开源AI圈注意到。

Quasar 正在 Hugging Face 上成为热门趋势。

说明一下背景:HF 是 AI 模型的核心枢纽,所有重要的开源模型都托管在这里。

我们目前已经排在榜单第二页,和 Xiaomi、Qwen 以及 Liquid AI 并列,而这还只是我们从小型模型实验中取得的成果!

ML 社区已经注意到了我们。这不只发生在 Bittensor 上,也发生在更广阔的开源世界里。

开源社区已经搭建好了 MLX 和 GGUF 版本,因此 Quasar 可以在 MacBooks 和本地 AI 环境中运行。

我们才刚刚起步。

在 X 看原帖 ↗
1.4万3514314
深度观点 · @ArthurB▲ 4.8万

有人提出中国开源大模型的另一种动机

这是行业观察人士提出的一个观点,关心大模型行业格局的人可以参考这个不同角度的推测

理论:中国鼓励发布开源模型,是因为他们认为中国以外的客户反正不会信任运行在中国数据中心里的模型,所以他们能做的最优策略,就是尝试侵蚀美国前沿实验室的边际利润,不让这些实验室更快地实现复利增长。

在 X 看原帖 ↗
4.8万1846760
AI安全 · @manlikemishap▲ 2.1K

AI安全论点说服母亲投票支持Bores 对父亲无效

一名网友称,自己靠AI安全论点说服纽约十二区选民母亲投票给Bores,这套方法对父亲不起作用

一名网友在社交平台𝕏发文称,自己靠详实的AI安全论点,说服了纽约十二区(NY-12)选民——也就是自己的母亲,投票给Bores。他认为这件事对自己的职业发展可能有益,希望这套说服方法能推广到更多场景。

随后他更新了消息:这套方法用在父亲身上没有成功。

在 X 看原帖 ↗
2.1K1994
AI工具 · @ivanfioravanti▲ 4.1K

开发者ivanfioravanti称赞Hermes Agent改变个人电脑使用体验

ivanfioravanti在𝕏发文感谢Teknium与NousResearch打造的Hermes Agent,称其大幅提升多场景使用效率

开发者ivanfioravanti在社交平台𝕏发文,感谢Teknium和NousResearch推出的工具Hermes Agent。他表示,这款工具彻底改变了自己在电脑上完成各类工作的体验。

可适用的场景覆盖学习、测试、监控、实验、编写代码等多个领域。

他对这款工具给出了极高评价。

在 X 看原帖 ↗
4.1K1574
安全 · @sherlockdefi▲ 2.0K

Sherlock AI近月获头部DeFi等协议采用 检出高危漏洞

Sherlock AI近期表现亮眼,被头部DeFi等协议用于安全审计

Sherlock AI 最近取得了惊人的成果。过去一个月里:

- 被两个顶级协议采纳用于内部安全审计,其中包括全球最大的 DeFi 协议之一

- 在一个复杂跨链借贷项目中发现了一处已确认的高危漏洞

在你的代码仓库上运行 Sherlock AI ↓

在 X 看原帖 ↗
2.0K4455
AI开发 · @JinjingLiang▲ 3.1K

开发者分享当前AI代码开发工作流分工方案

开发者分享其利用不同AI工具分工完成开发的工作流

当前工作流:UI 工作使用@grok Build 或 cursor-agent 内的 Composer-2.5,逻辑密集型工作使用 Codex。

在 X 看原帖 ↗
3.1K26012
科普 · @zhodonx▲ 2.1K

科普讲解AI智能体循环是什么及其核心作用

讲解智能体循环,说明它是解决AI工作流错误的关键

AI 系列 - 06 智能体循环到底是什么?如果你曾花好几小时来回和 Codex 或 Claude 沟通,每次都要纠正它犯下的工作流错误,问题通常都能追溯到一件事:智能体循环,或者说,缺少智能体循环。

➤ 搭建一个智能体循环实际是什么样的
假设你需要 AI 完成的工作是,针对选定主题生成每周研究报告。你不用提示“研究X”,然后让智能体靠它的连接器瞎忙活。你只需要写下两样东西:目标:生成一份报告

想了解更多关于循环工程的内容

在 X 看原帖 ↗
2.1K2704
商业 · @IBuzovskyi▲ 1.6万

AI代理HERMES可自动运营内容剪辑业务月入千美元

HERMES代理可自动将单条YouTube长视频拆分为多平台日更内容

HERMES AGENT 可以自动运营内容剪辑业务。从单个 YouTube 视频出发,它可以在全平台每天产出 9 条帖子。

用这种方式搭建的单个页面,每月可以赚 1000 到 4000 美元。

工作流程是:1. 找到一位在 YouTube 上创作长内容的创作者(播客、直播、教育内容)

在 X 看原帖 ↗
1.6万13156321
AI工具 · @tonysimons_▲ 2.8万

Hermes Agent日常技巧:看板适配全工作流

分享Hermes Agent使用技巧:看板可适配各类工作流

⚕️ 今日 Hermes 小贴士:你可以在 Hermes Agent 的**任何工作流**中使用看板。

✅ 深度研究 ✅ 大型写作项目 ✅ 编码。

只要你能想到的场景都能用。

这是保持项目有序,让你的代理保持专注、锁定上下文的最佳方式。我

在 X 看原帖 ↗
2.8万22242430
学习 · @Muzamil_AI▲ 6.4K

整理了5家大厂官方免费学AI的地方

从AI安全基础到提示词工程,全都没有付费墙,内容都是做AI的公司自己出的。

阅读全文 →
6.4K64823
工具 · @Bitcoin188▲ 1.2万

有人把OpenAI Codex改成了全自动视频工厂

只需要输入一句话,就能搞定从脚本、分镜到剪辑、渲染的整条视频流水线,相关工具都放在GitHub开源。

阅读全文 →
1.2万36161178
学习 · @shushant_l▲ 2.2K

有人整理了从入门到实用的分级AI学习路径

从认识AI是什么、大模型基础原理,到普通用户该怎么用提示词,分了两个级别整理归档。

阅读全文 →
2.2K166945
实战经验 · @NFTCPS▲ 6.9K

从零手搓GPT,不用高级库全流程给你拆明白

想真正搞懂AI原理,不想只当调包侠,可以从这个仓库入门,用免费算力练一天就能出结果

天天喊着搞AI,结果你连Transformer是个啥都说不清?

有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链都有:

1️⃣ 数据下载、预处理、训练、生成一条龙
2️⃣ 训练数据用The Pile,22个来源825GB
3️⃣ tiktoken分词,存HDF5
4️⃣ 预训练之后还给SFT和RLHF的路子

改几个配置就能调大小。13M参数左右就开始拼对语法和单词,白嫖Colab或Kaggle的T4,练一天就出活。

想真懂原理、不想当调包侠,从这儿入门最干净。

在 X 看原帖 ↗
6.9K299181
行业动态 · @StockSavvyShay▲ 6.1万

花6.43亿美元买公司,只为榨干AI芯片算力

这笔收购能帮开源大模型推理,从每块英伟达芯片里挤出更多tokens,最终降低客户的使用成本

$NBIS 已完成对 Eigen AI 的收购,交易金额约为 6.43 亿美元,此举进一步强化了 Nebius Token Factory 作为前沿推理平台的地位。

Eigen 能帮助 Nebius 从每一块 $NVDA 芯片中获得更多 token,提升性能、降低客户成本,并优化开源模型工作负载。

在 X 看原帖 ↗
6.1万711.1K72
实战经验 · @PierceZhang34▲ 4.5K

大模型算法也有专属LeetCode,入门进阶能刷题

想从只会看大模型理论,练到会写会调会优化,这里有分知识点的可运行练习,还有本地测试可以反复练

程序员小伙伴们刷起来 -- 大模型算法的leetcode LLM Algorithm Practice Lab 这是一个面向大模型入门到进阶的算法实战教程,聚焦 Python、PyTorch、Transformer、推理优化、显存管理与 CUDA/Triton 实战 把每个知识点做成可运行、可验证、可回顾的 Jupyter Notebook 练习,帮助你从“会看”走到“会写、会调、会优化” 本项目仅限于纯粹的大语言模型(LLM)领域,不包含 Diffusion 或多模态,并配备本地测试用例,提供可反复练习和回顾的学习路径 项目特点 高度垂直:专注 Transformer、MoE、量化、推理加速与显存优化 工程导向:使用 PyTorch、Triton 或 CUDA C++ 实现核心算子和系统逻辑 测试驱动:每道题都配套本地测试和性能验证 传送门👉

在 X 看原帖 ↗
4.5K1990103
实战经验 · @cj3214567667▲ 9.6K

想练AI Agent?这里有Codex保姆级完整教程

找不到Codex入门路径的人,可以跟着完整教学一步步学,学会指挥超级AI Agent,用AI放大自己的做事能力

火遍全网的codex到底怎么用?YouTube博主学长Ethan手把手教你:Codex从入门到进阶,保姆级完整教学。教你自主搭建工具、自动化处理各种事务的AI硬核能力,快速掌握指挥超级AI Agent的技巧。

适合想用AI放大能力的朋友!

在 X 看原帖 ↗
9.6K177888
实战经验 · @CycleDecoded▲ 3.8K

公众号AI全流程运营工具居然已经开源了

做公众号的人可以用这套自动化流程,把内容产出效率提5倍以上,项目完全开放可用。

别再纯手工写公众号了!分享一套刚开源的微信公众号 AI 运营全流程 Skill。这次不只是简单的 Prompt,而是直接打通了底层 AI Agent 生产力: 1️⃣ 选题与写稿:基于 OpenClaw / Claude Code 自动化抓取热点并生成大纲 2️⃣ 审稿与优化:利用 Codex 智能校对,精准规避敏感词与逻辑漏洞 3️⃣ 排版与配图:通过 Cursor 快速实现自动化样式编排,一键成文 实测这套流派把内容产出效率提升了 5 倍以上,完全打通了新媒体的“硅基工作流”。

项目完全开源,抓紧接入你的工作流: 👉 GitHub:

在 X 看原帖 ↗
3.8K197491
谷歌 · @LyalinDotCom▲ 150

谷歌开发者发文学习Gemini托管代理API新功能

开发者LyalinDotCom在社交平台发文,称饭后回来工作正在熟悉新Gemini托管代理API

LyalinDotCom与同事共进晚餐后回到工作岗位,抽出时间进行学习。他正在尝试进一步熟悉新Gemini Managed Agent API(Gemini托管代理应用编程接口)的工作方式。他在社交平台发文向网友提问,询问是否有人已经体验过这项新功能。

在 X 看原帖 ↗
15052
AI安全 · @manlikemishap▲ 1.5K

男子靠AI安全论点说服母亲投票给Bores

该男子来自纽约第12选区,称这套方法或对自己职业有利,尝试说服父亲失败

一名用户在𝕏(原推特)发文称,自己通过条理清晰的AI安全论述,说服了身为纽约第12选区选民的母亲,投票给Bores。这名用户表示,这件事可能对自己的职业发展有好处,他希望这套说服方法可以推广应用。

随后他更新了消息,这套方法没能说服自己的父亲。

在 X 看原帖 ↗
1.5K1734
AI开发 · @JinjingLiang▲ 3.0K

开发者JinjingLiang分享当前AI开发工作流配置

不同AI工具分别负责UI开发和高复杂度逻辑开发工作

开发者JinjingLiang在𝕏公开了自己当前使用AI工具进行开发的工作流程。

UI开发工作使用@grok Build内置的Composer-2.5,或是cursor-agent完成。

逻辑复杂度高的开发任务,则由Codex负责。

分享附带相关内容链接。

在 X 看原帖 ↗
3.0K26012
大模型 · @bi_9527zx▲ 2.5K

无需ChatGPT Plus 5分钟接入Codex加国产大模型国内直用

无需翻墙和每月20美元的Plus会员,提供三步新手零门槛操作方法

不用每月支付20美元订阅ChatGPT Plus会员。只需5分钟就能完成Codex与国产大模型的接入,不用翻墙,国内可直接使用,新手没有操作门槛。

第一步安装Codex:从OpenAI官网下载安装包,双击按默认设置完成安装,直接跳过官方登录界面即可。

第二步安装CC Switch:这款工具适合新手,一键完成配置修改,不用手动查找修改文件,也不会因为改崩出错。

第三步获取DeepSeek密钥:在DeepSeek官网充值10元就可以使用很长时间,价格便宜,完成密钥创建即可。

在 X 看原帖 ↗
2.5K24620
大语言模型 · @lidangzzz▲ 2.0万

用户实测GLM 5.2 新增支持百万长度上下文窗口

有实际购买使用GLM智谱会员的用户称,GLM 5.2已对齐Claude系列上下文能力

有实际购买GLM智谱会员并真实切换使用的用户表示,其他号称使用该服务的用户并非真实付费使用者,只有自己是真实付费使用。

GLM 5.2的最大改动是支持1M(100万token)上下文窗口,上下文处理能力终于和Claude系列对齐。

此前GLM 5.1的问题是无法适配Claude模型,使用Claude code时需要手动在设置中配置自动压缩、压缩阈值等一堆参数,如果在多个Docker(应用容器引擎)中运行,还需要额外进行手动配置。

在 X 看原帖 ↗
2.0万5017
具身智能 · @yueya_eth▲ 4.8K

Caspius定位为具身AI的数据层,解决真实数据需求

机器人学习家务操作依赖真实环境数据,模拟器难以满足这类数据需求

Caspius(@caspius_ai)的定位是具身AI(也叫物理AI)的数据层。

大模型可以从互联网文本中学习知识,但机器人的学习逻辑完全不同。机器人要掌握做饭、清洁、洗衣、组装、搬运这类技能,依赖的是视觉、动作、手眼协调、物体触感,以及真实环境中的细微变化。

这类数据很难通过模拟器生成解决。当前行业真正稀缺的,是大量来自真实世界的第一人称任务视频,覆盖不同家庭、不同物体、不同光线和不同人的动作方式。

目前这个项目还处于非常早期的阶段,参与人数不到50人,提前参与可以获得积分,后续会有相应优势。

在 X 看原帖 ↗
4.8K2454
科普 · @zhodonx▲ 1.8K

什么是智能体循环,为什么它对AI工作流很重要

解释智能体循环的基础概念,举例说明如何搭建面向周报生成的智能体循环

这是AI系列内容的第六期,主题是讲解什么是智能体循环。如果你曾花数小时在Codex或Claude上来回操作,每次AI出工作流错误时都要手动修正,问题通常可以追溯到一件事:智能体循环,或者说,缺少智能体循环。

如果需要AI完成的任务是生成指定主题的每周研究报告,搭建智能体循环的操作和直接给提示词有明显区别。直接操作通常是输入提示词“调研X”,之后让智能体调用连接工具自行处理。

搭建智能体循环时,你需要先写下两个核心内容,其中第一个是目标:生成一份完整的报告。

想了解更多关于循环工程的内容,可以查看原文链接。

在 X 看原帖 ↗
1.8K2652
商业 · @IBuzovskyi▲ 1.3万

AI代理HERMES可自动运营内容剪辑业务

单YouTube长视频可生成9条日更跨平台帖,单个账号月收入可达1000到4000美元

HERMES代理可以全自动运营内容剪辑生意。

从单条YouTube长视频出发,该代理可以在全平台生成每天9条 posts。

按照这套模式搭建的单个账号,每个月可以赚取1000到4000美元,也就是约合7000元到29000元人民币。

这套工作流程的第一步是,找到一位在YouTube制作长内容的创作者,内容形式可以是播客、直播或是教学内容。

在 X 看原帖 ↗
1.3万9130274
AI开发 · @tonysimons_▲ 2.3万

Hermes Agent可使用看板适配各类工作流程

分享Hermes Agent使用技巧:看板适配全场景工作流

⚕️ Hermes 今日贴士:你可以在 Hermes Agent 的任何工作流中使用看板。

✅ 深度研究。✅ 大型写作项目。✅ 编码。✅ 只要你说得出来的都可以。

这是让你的项目保持有序,让你的代理保持专注、牢牢锁定上下文的最佳方法。

在 X 看原帖 ↗
2.3万20202366
AI开发 · @vincemask▲ 6.3万

开发者分享Claude项目配置文件CLAUDE.md编写经验

开发者分享自身编写CLAUDE.md踩坑经验,提出不应堆砌信息

我靠,原来 CLAUDE.md 还有这么多门道,以前真是白写了。 以前我一直以为「信息越多越好」,于是把项目历史、技术决策、个人偏好,甚至「写干净代码」这种空泛要求,全塞进 CLAUDE.md。 结果就是:Claude 每次都像在几千行上下文里翻垃圾堆。

在 X 看原帖 ↗
6.3万76288535
设计工具 · @dotey▲ 3.2万

baoyu-design skill支持本地生成导出MP4动画视频

开发者实现基于Claude Design的工具可本地导出MP4动画视频

baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不过很麻烦,效果也不是很好。 在这套 Skill 基础上,我已经实现了直接把动画导出成

应用案例

有个小技巧,就是它默认的生成结果是 HTML 的,可以在 Agent 内置的浏览器中打开这个 HTML,暂停视频播放,然后标记要修改的位置,让 Agent 去在标记的位置修改,可以做一些微调。

Codex 也可以的,但是效果要差不少

应用案例

在 X 看原帖 ↗
3.2万33177216
大模型 · @rasbt▲ 3.8万

开发者分享基于通义千问2.5-Coder-3B的VibeCoder初印象

基于通义千问旧基座后训练得到的VibeCoder性能表现出色

疯狂的模型!它居然用的是旧的 Qwen2.5-Coder-3B 架构,还通过他们的后训练体系取得了相当出色的性能。

我接下来几天会实际用它,看看 VibeCoder 的实际体验能不能配得上这个名字。但第一印象已经相当惊艳了!以上基于技术报告得出,

在 X 看原帖 ↗
3.8万45452352
AI能力 · @teodorio▲ 351

这款大模型居然第一次模拟出了稳定的心智

有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来

Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。

这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。

美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。

在 X 看原帖 ↗
3511131
商业 · @hwchase17▲ 507

AI企业现在给编码代理花的钱涨疯了

不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关

和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。

我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。

我们的实现方式如下:
1/ 准确、实时

在 X 看原帖 ↗
50732
AI工具 · @dotey▲ 336

Codex操控电脑的三种方式,整理好适用场景了

Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。

Spotify、Xcode、系统设置、iOS 模拟器,甚至

在 X 看原帖 ↗
336110
AI工具 · @LangChain▲ 1.6K

新推出的LangSmith Fleet,给用户提供两种代理选择

分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出

LangSmith Fleet 有两种类型的智能体:✅ 通用对话 ✅ 专业智能体。

@BraceSproul 讲解了我们为什么提供这种选择,以及每种智能体的适用场景。

在 X 看原帖 ↗
1.6K41
AI行业 · @_simonsmith▲ 35

有人给AI行业画了一张双维度发展坐标系

横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见

AI 领域并非一维的。我在此尝试绘制出它的两个维度,我还没有给它们命名,但我认为 X 轴是「自主性」,Y 轴是「智能」。

欢迎告诉我哪里错了,以及我漏掉了什么。

在 X 看原帖 ↗
3521
开源AI · @code_star▲ 112

大家都在猜Mistral年底会开源最大模型

有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim

祈祷@MistralAI能在今年年底开源他们有史以来最大的模型,并且把它命名为Le Chaton Slim。

在 X 看原帖 ↗
1126
前沿研究 · @Hesamation▲ 235

Anthropic报告:专家用Claude反而产出更多

同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。

专家能从 Claude 中获得更多价值~ 根据 Anthropic 的报告。这是因为: > 他们提出的问题 > 他们使用的词汇 > 以及引导 AI 的能力

在 X 看原帖 ↗
235112
深度观点 · @ericosiu▲ 135

现在最大的AI商机,还没多少公司摸透

想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道

当前AI领域最大的机遇,就是将循环应用于企业运营。大多数公司还没有想明白这件事。

以下几个例子可以帮你抢占先机:

在 X 看原帖 ↗
13522
新品发布 · @SERobinsonJr▲ 301

专门做SpaceX AI项目的工程公司成立了

这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统

SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。

它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。

The company

在 X 看原帖 ↗
30115
实战经验 · @togethercompute▲ 1.0K

换开源微调模型后,语音代理成本砍了六倍

想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求

@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:

→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成

在 X 看原帖 ↗
1.0K2131
实战经验 · @LangChain▲ 1.7K

Deep Agents核心能力有两分钟教程讲透了

想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力

Deep Agents深度解析第二部分 | 上下文管理

来自@SydneyRunkle的讲解,时长不到2分钟,介绍Deep Agents工具链中最重要的能力之一

在 X 看原帖 ↗
1.7K4165
前沿研究 · @togethercompute▲ 3.3K

测了大模型做游戏:贵十倍的模型做出来差不多

找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少

我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。

Opus 4.8 的价格是 MiniMax M3 的 15 倍。

GPT-5.5 的价格是 Nemotron 的 10 倍。

在 X 看原帖 ↗
3.3K5276
深度观点 · @fofrAI▲ 1.8K

AI能写喜剧的那天,才会迎来通用人工智能?

这是关于通用人工智能什么时候出现的一个判断。

当AI能够创作喜剧时,我们就拥有了AGI。

在 X 看原帖 ↗
1.8K130
实战经验 · @llama_index▲ 1.3K

好文档居然能帮AI agent省这么多成本时间

优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。

好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。

我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,

在 X 看原帖 ↗
1.3K41011
新品发布 · @LangChain▲ 821

不用事后加装 AI 智能体治理功能啦

搭建、观测和评估智能体的同一平台,就能直接启用规则管控

智能体治理不应该是事后硬接到智能体系统上的东西。

LangSmith LLM Gateway 允许你在构建、观测和评估智能体的同一平台上执行规则。

在 X 看原帖 ↗
8212134
深度观点 · @emollick▲ 4.4K

企业AI现在安稳,可能只是中场休息

当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合

我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!

但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。

在 X 看原帖 ↗
4.4K28712
前沿研究 · @dair_ai▲ 226

大语言模型智能体能探索看不见的环境吗?

这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。

大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。

智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……

在 X 看原帖 ↗
22633
新品发布 · @victormustar▲ 1.2K

端侧级别的大模型,现在开源放到社区了

智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案

GLM-5.2 现已上线 Hugging Face 🔥

对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。

——AI 与人类的未来,是开放的

在 X 看原帖 ↗
1.2K5263
实战经验 · @omarsar0▲ 3.0K

国产开源大模型GLM-5.2初步表现亮眼

在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉

在开放权重模型的前沿领域不浪费一点时间。从我看到的结果来看,GLM-5.2 表现十分出色。

我非常好奇它在长周期任务上的表现如何。

在 X 看原帖 ↗
3.0K4225
实战经验 · @GoogleAIStudio▲ 1.0万

不用写复杂代码,AI Studio直接做安卓APP

想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行

在 AI Studio 中创建安卓应用并在你的手机上运行,这是 @patloeber 整理的快速分步指南:

在 X 看原帖 ↗
1.0万19195114
深度观点 · @fchollet▲ 1.0万

要让所有人用上开源强AI,得靠符号学习?

要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。

要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。

符号学习将实现这一目标。

在 X 看原帖 ↗
1.0万1615726
大语言模型 · @omarsar0▲ 1.3万

AI从业者探讨大语言模型智能体验证器的重要性

指出优质验证器对LLM智能体至关重要,建议调优自定义验证器

验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。

我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。

如果你感兴趣,我在这里分享了更多相关内容:

如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。

在 X 看原帖 ↗
1.3万1210264
大模型 · @emollick▲ 1.1万

业内观点:开源大模型滞后闭源8-12个月需提前防护

专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护

假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。

现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。

在 X 看原帖 ↗
1.1万1927018
前沿论文 · arXiv▲ 98

机器人学几何,不再只看2D图

现在的机器人学操作,大多还是把3D世界压成2D图片来理解,就像你透过猫眼看人——能看见动作,但算不准距离和角度。

现在的机器人学操作,大多还是把3D世界压成2D图片来理解,就像你透过猫眼看人——能看见动作,但算不准距离和角度。这篇直接把一个预训练好的3D几何模型(原本用来理解物体形状和空间关系)当成机器人的大脑主干:浅层负责看,中间插一个预测模块,根据你的指令和当前状态,提前算出未来几秒的几何变化,然后深层再把这些预测转成具体动作。结果是在模拟和真实场景里,比那些用大语言模型或视频模型做底座的方案更准、更稳、更快,模型还更小。

它不是你明天就能用的产品,但指明了一个方向:让机器人用3D的脑子想3D的事,而不是硬把3D翻译成2D再猜。

机器人 · 3D几何 · 操作策略 · 语言指令 · 基础模型
阅读全文 →
前沿论文 · arXiv▲ 89

你也能当导演:AI生成视频,镜头随你动

现在的AI视频生成,你只能给个提示词,镜头怎么动完全看AI心情。

现在的AI视频生成,你只能给个提示词,镜头怎么动完全看AI心情。DreamX-World 1.0让你像玩游戏一样控制镜头:你可以指定摄像机路径、回头看看之前去过的地方,甚至中途触发事件(比如让角色开门)。它用了一种叫E-PRoPE的编码技术,把摄像机的位置信息直接嵌入到视频生成中,同时通过记忆机制记住之前生成的画面,避免场景漂移。

在8张RTX 5090显卡上能跑到16帧每秒,基本实时。这不是你明天就能用的产品,但它展示了AI视频从“随机生成”走向“可控交互”的关键一步。

AI视频生成 · 世界模型 · 摄像机控制 · 交互式生成 · 长视频
阅读全文 →
前沿论文 · arXiv▲ 76

给AI配个专职探路员,省60%算力

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。微软这篇论文的做法很直接——给AI配一个专职的“探路子模型”,只负责快速定位代码位置,不参与写代码。这个探路员能并行搜索,返回精确的文件路径和行号,把主模型从翻仓库的杂活里解放出来。

在多个编程基准测试上,这套方案让修复成功率最高提升5.5%,同时主模型消耗的token减少60%。它不是你明天就能用的工具,但指明了一个方向:把大模型的任务拆成“找”和“做”两个角色,比让一个模型干所有事更聪明。

AI编程 · 代码助手 · 模型分工 · 效率提升
阅读全文 →
前沿论文 · arXiv▲ 71

3B小模型推理能力碾压千亿大模型

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。研究者用了一套「课程学习+强化学习+自蒸馏」的组合训练法,让模型在AIME数学竞赛上拿到94.3分(加测试时缩放能到97.1),在LiveCodeBench编程题上80.2%一次通过,甚至没见过的LeetCode新题也有96.1%的接受率。关键是,它没有牺牲指令遵循能力——IFEval得分93.4。

这挑战了「模型越大越聪明」的常识,暗示推理能力可以被压缩进小模型的核心,而大模型多出来的参数更多是用来装常识和长尾知识。它不是你明天能用上的,但如果你关心AI的效率和成本,这是一个信号:未来可能不需要烧钱堆参数,也能做出顶尖的推理AI。

小模型 · 推理能力 · 强化学习 · 数学竞赛 · 编程
阅读全文 →
前沿论文 · arXiv▲ 65

万亿参数模型也能秒回:Ling/Ring 2.6 的平衡术

大模型要么快但笨,要么聪明但慢。

大模型要么快但笨,要么聪明但慢。Ling-2.6 和 Ring-2.6 是同一家族的两兄弟:Ling 专攻秒级响应,Ring 专攻深度推理。它们不是从零训练,而是从旧模型升级,通过混合注意力机制(闪电注意力+MLA)让长文本训练和推理更快。

更关键的是,他们用“进化思维链”和“最短正确回答蒸馏”等技巧,让模型用更少的 token 输出同样好的答案——这意味着更低的成本和更快的速度。Ring 则用一套叫 KPop 的强化学习框架,在编程、搜索、工具调用等真实环境中稳定训练万亿参数模型。这套方案已经开源,不是明天能用上的那种,但它展示了“又快又聪明”不是梦,而是工程取舍的艺术。

万亿参数 · 混合注意力 · 进化思维链 · 强化学习 · 开源
阅读全文 →
前沿论文 · arXiv▲ 64

AI写代码:循环两次效果最好,三次反而变差

大模型写代码时,重复思考能提升质量,但并非越多越好。

大模型写代码时,重复思考能提升质量,但并非越多越好。研究者发现,让模型把同一段代码逻辑“循环”两次,效果最佳——在SWE-bench(软件工程基准)上得分从43%跃升至64%,三次或更多循环反而导致性能下降。原因是:第二次循环能有效修正错误,但第三次起,模型开始做无意义的微小调整,同时每次循环都会引入位置偏差,成本超过收益。

这解释了为什么“多想一遍”有用,“多想两遍”就多余了。它不是你明天能用上的技巧,但揭示了AI推理的一个底层规律:适度重复有益,过度则有害。

大模型 · 代码生成 · 循环次数 · 性能优化 · SWE-bench
阅读全文 →
前沿论文 · arXiv▲ 36

老师不教梯度,只改题目,小模型反而学得更好

传统知识蒸馏让大模型当老师,逼小模型模仿它的输出(logits),但老师太大时,小模型只学到老师最尖锐的“口音”,反而在没见过的新题上翻车。

传统知识蒸馏让大模型当老师,逼小模型模仿它的输出(logits),但老师太大时,小模型只学到老师最尖锐的“口音”,反而在没见过的新题上翻车。强化学习(RL)让小模型自己试错,可一旦所有尝试都失败(得分为零),老师强行插入正确答案会打乱学习节奏。这篇论文的解法很反直觉:老师不碰梯度,只改题目。

遇到难题,老师把一道题变成两道:一道把正确答案和小模型的错误答案匿名混在一起,让小模型自己选;另一道把小模型的所有错误答案打包,让它看清自己错在哪。这些题被反复投喂,直到小模型答对一半以上才毕业。在Qwen3.5系列(0.8B到9B)上,用27B老师训练视觉语言模型,在31个基准测试中,ZPPO全面超过传统蒸馏和GRPO,模型越小提升越大。

它不是你明天能用上的,但给了一个新思路:教AI不一定靠灌输答案,而是靠设计问题。

知识蒸馏 · 小模型 · 强化学习 · 提示工程 · 教育启发
阅读全文 →
前沿论文 · arXiv▲ 34

让机器人看人类第一人称视频学干活

训练机器人需要大量操作数据,但让机器人自己动手又慢又贵。

训练机器人需要大量操作数据,但让机器人自己动手又慢又贵。这篇论文的思路是:让机器人看人类的第一人称视频(比如你戴着头戴相机做饭、修东西),从中学会动作。研究者建了一条流水线,把人类视频自动转成机器人能懂的“伪动作轨迹”,再和真实机器人数据一起训练。

关键技巧是:用统一动作表示(基于相机空间坐标、形态条件、时间对齐)让两种数据能混用,同时加一个“可靠性权重”来过滤人类视频中的噪声。实验表明,加入人类视频数据后,机器人在桌面操作和双臂操作任务上都达到了新高度。它不是你明天就能用的,但指明了降低机器人训练成本的一条路:用海量人类视频替代部分机器人实操。

机器人训练 · 第一人称视频 · 视觉语言动作模型 · 预训练 · 人类数据
阅读全文 →
前沿论文 · arXiv▲ 34

AI做游戏?最强模型成功率不到一半

让AI从头到尾做一个能玩的游戏,比写代码难得多。

让AI从头到尾做一个能玩的游戏,比写代码难得多。研究者搞了个新测试GameCraft-Bench,让AI在Godot引擎里按文字描述做140个游戏(从贪吃蛇到平台跳跃)。结果最强模型只完成41%,多数不到40%。

AI能做出部分玩法,但做不出完整游戏——缺内容、缺视觉反馈、缺连贯体验。这不是你明天能拿来用的事,但它是衡量AI编程能力的新标尺:能写代码不等于能做出一个能玩的东西。

AI游戏生成 · 编程智能体 · Godot引擎 · 基准测试 · 端到端游戏开发
阅读全文 →
前沿论文 · arXiv▲ 28

AI教授能边讲边写板书了

现在的AI教学助手大多只会生成文字或PPT,但真正的课堂里,老师会板书、高亮、画线——这些动作本身就在传递重点。

现在的AI教学助手大多只会生成文字或PPT,但真正的课堂里,老师会板书、高亮、画线——这些动作本身就在传递重点。这篇论文让AI学会像真人教授一样,一边讲课一边在虚拟黑板上做手势:写公式、圈关键词、画箭头,而且动作和说话内容能对上节奏。核心是两件事:一是把教授拆成「总指挥+专业助手」的团队,总指挥根据你的水平决定讲多深、用什么动作;二是用算法把语音和动作自动对齐,比如讲到「光合作用」时,手刚好指向叶绿体。

实验请了真老师打分,说它比现有AI更像真人授课。它不是你明天就能用的产品,但指明了AI教育从「念稿」走向「表演」的方向。

AI教学 · 多智能体 · 自适应学习 · 虚拟教师 · 教育技术
阅读全文 →
前沿论文 · arXiv▲ 24

AI看病不再非黑即白:用辩论式推理给出连续风险分

医生看病人数据时,需要的不只是“危险/安全”二选一,而是0到100的连续风险分。

医生看病人数据时,需要的不只是“危险/安全”二选一,而是0到100的连续风险分。但现有AI模型往往过于自信,把轻微风险也判成高危,导致误判。这篇研究让AI像辩论一样,先为“病情恶化”和“病情稳定”分别找证据,再综合打分。

结果风险分更连续、更准,校准误差降低81%,而且AI给出的理由比事后解释更靠谱。它不是你明天能用上的,但指明了AI医疗预警从“拍脑袋”走向“讲道理”的方向。

医疗AI · 风险预测 · 大语言模型 · 可解释性 · 临床预警
阅读全文 →
前沿论文 · arXiv▲ 24

城市街景渲染:物理模型+AI修复,视频更真更可控

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。这篇把两者拼起来——先用物理模型算出场景的材质、光照等属性,再用生成模型去修掉物理渲染留下的伪影和噪点。结果是你既能像调灯光一样控制场景(比如换时间、插个车进去),又能得到像实拍一样流畅的视频。

做自动驾驶仿真、数字城市、影视后期的人,这是你明天就能试的那种:它支持新视角重打光、夜间模拟、动态物体插入编辑,而且效果比纯物理或纯生成都好。

城市渲染 · 逆渲染 · 物理模型 · 生成模型 · 自动驾驶仿真
阅读全文 →
前沿论文 · arXiv▲ 23

AI模型也能接力跑:谁更靠谱谁领跑

大模型生成答案时,不同模型在不同阶段各有优劣。

大模型生成答案时,不同模型在不同阶段各有优劣。研究者发现,一个模型在生成过程中,如果对答案关键位置的置信度保持稳定,说明它走在靠谱的路径上;反之则可能出错。基于此,他们设计了一种“接力”方法:让多个模型同时生成,实时追踪每个模型在关键位置上的置信度变化,选出当前最靠谱的那个,把它的部分生成结果传给其他模型继续。

这样,不同模型可以在不同阶段贡献自己的优势,最终答案更准确。在多个推理任务上,这种方法比单个模型或简单集成效果更好。它不是你明天就能用上的工具,但展示了未来AI协作的一种可能:不是让一个模型包揽一切,而是让多个模型像接力赛一样,谁状态好谁领跑。

掩码扩散语言模型 · 模型集成 · 置信度动态 · 推理任务
阅读全文 →
前沿论文 · arXiv▲ 21

AI 助手学会从失败中进化,成本直降98%

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。VisualClaw 用两级筛选:先快速扔掉99%的重复帧,再只把关键画面和技能库压缩后上传,一小时只调用5-20次,成本降98%。更关键的是,它会在失败后自我进化——把错误记忆存下来,下次遇到类似问题直接调取改进后的策略,在 EgoSchema 视频问答上准确率最高提升15.8%。

这不是你明天就能下载的 App,但它是让 AI 助手从“烧钱且死板”走向“省钱且越用越聪明”的关键一步。

AI 助手 · 视频理解 · 成本优化 · 自我进化 · 边缘计算
阅读全文 →
前沿论文 · arXiv▲ 20

AI学会自己挑经验、写笔记、升级,9B模型挑战397B

现在的AI智能体虽然能记住对话历史,但不会判断哪些经验有用、怎么用、怎么记下来。

现在的AI智能体虽然能记住对话历史,但不会判断哪些经验有用、怎么用、怎么记下来。这篇论文让AI学会一套完整的自我进化流程:先快速试错积累经验,再慢速提炼出可复用的知识。具体做法是给AI设计四层记忆结构(读、用、写、维护),并通过自我蒸馏把进化能力内化到模型参数中。

结果很惊人:9B参数的模型在多个任务上超过了397B的巨无霸。这不是你明天能用的功能,但它指向一个方向——未来的AI可能不再需要频繁更新版本,而是自己就能在运行中变强。

自我进化 · 记忆管理 · 知识蒸馏 · 智能体 · 小模型挑战大模型
阅读全文 →
前沿论文 · arXiv▲ 18

AI学会从“未来的自己”身上偷师

大模型训练通常需要人类反馈或大量数据,但这篇论文让AI自己教自己——而且是从“未来的自己”那里学。

大模型训练通常需要人类反馈或大量数据,但这篇论文让AI自己教自己——而且是从“未来的自己”那里学。研究者针对扩散语言模型(一种非逐字生成、而是整体“显影”出文本的模型)设计了一套新方法:让模型先生成完整答案,再回头用这个答案作为“未来经验”去指导自己优化推理过程。在四个推理测试中,它只用强化学习十分之一的训练步数就超越了传统方法。

这不是你明天能直接用的工具,但它指向一个趋势:AI可能不再需要那么多人类标注,而是靠自我迭代变得更聪明。

扩散语言模型 · 自蒸馏 · 自我学习 · 推理优化
阅读全文 →
前沿论文 · arXiv▲ 14

给扩散模型戴上降噪耳机:只留信号,屏蔽噪声

扩散模型生成图像时,每一步都要从带噪图片里猜信号。

扩散模型生成图像时,每一步都要从带噪图片里猜信号。但噪声和信号在频率上天然可分:低频是结构,高频是噪声。这篇论文发现,如果让模型在输入时就主动滤掉高频噪声(用可调的低通滤波器),它就能把算力集中在真正需要建模的低频信号上,而不是浪费在预测“噪声该长什么样”上。

在ImageNet和商业模型SenseNova-U1上,这个无参数、即插即用的操作稳定提升了图像质量和评测分数。它不是你明天就能直接用的工具,但揭示了一个反直觉的事实:给AI“降噪”不是削弱它,而是帮它聚焦。

扩散模型 · 频率滤波 · 信号分离 · 计算效率 · 图像生成
阅读全文 →
前沿论文 · arXiv▲ 14

给AI世界模型加个“坏世界”

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。但研究者发现,只要在照片上加上人眼几乎看不出的微小噪点,AI的“想象”就会彻底崩溃:画面扭曲、结构崩塌、动作失控。他们发明了一种叫BadWorld的攻击方法,不需要知道未来真实画面,也不需要预测你会怎么操作,就能让AI的预测完全跑偏。

这听起来很危险,但反过来想,它也能用来保护隐私——比如给你的照片加一层“隐形干扰”,让AI无法正确模拟你的行为。

世界模型 · 对抗攻击 · AI安全 · 隐私保护
阅读全文 →
前沿论文 · arXiv▲ 14

用一句话让机器人想象未来画面

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。这不是真的在动,而是机器人在脑子里“想象”出来的物理世界。Qwen-RobotWorld 把自然语言当作统一遥控器,让同一个模型能预测机械臂、自动驾驶、室内导航等不同场景的未来画面。

它靠一个60层双流扩散变压器,把语言和视频特征一层层融合,再喂进860万条视频-文本数据训练。结果在多个评测榜上排第一。它不是你明天就能用的产品,但它是让机器人学会“预演”动作后果的关键一步——就像人类做决定前先脑补一下。

世界模型 · 视频生成 · 机器人 · 语言控制 · 物理模拟
阅读全文 →
📑 前沿论文
前沿论文 · arXiv▲ 161

AI不再等你问:它自己决定何时开口

你习惯的AI是问答式的——你问它答。

你习惯的AI是问答式的——你问它答。但现实世界不等人:监控里冒烟、直播中闪过商品、视频通话里表情变化,这些瞬间转瞬即逝。这篇论文做了一个8B参数的视觉语言模型,它像人一样持续“看着”当前画面,自己决定要不要说话、什么时候说,甚至判断问题太难时交给后台更强的模型处理。

它没被训练过,却自己学会了引导用户切换App界面、对着幻灯片即兴讲课。在6个真实场景中,人类评分远超豆包和Gemini的视频通话助手。这是首个开源、可部署的实时交互模型,代码、数据、训练方法全公开。

它不是你明天就能用的工具,但指向一个方向:AI从“应答器”变成“在场者”。

实时交互 · 视觉语言模型 · 自主决策 · 开源
阅读全文 →
前沿论文 · arXiv▲ 104

AI记者来了:它写的新闻,每句话都能查来源

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?

你刷到一篇数据新闻,图表漂亮、故事流畅,但心里总犯嘀咕:这些数字是真的吗?角度有没有被带偏?现在有个AI记者系统叫Data2Story,它把写新闻拆成找数据、做分析、选角度、设计可视化——每个环节都有专门AI负责,最狠的是它内置了一个「检查官」:每个数字、每张图、每段结论都必须能追溯到原始数据或代码,读者可以点开看它到底怎么算出来的。

它还会根据内容自动选呈现方式:讲地理就上交互地图,讲音乐就插音频,而不是千篇一律的折线图。在18篇真实新闻的对比测试中,它产出的故事在透明度和可验证性上甚至超过人类记者。当然,在选题创意和设计美感上,人类依然领先。

所以它不是你明天就能取代记者的工具,而是让记者多一个能自动查证、自动配图的搭档——以后你看到的数据新闻,可能背后就站着这样一个AI,而它说的每一句话,你都能自己查。

AI记者 · 数据新闻 · 可验证 · 多智能体 · 自动化新闻
阅读全文 →
前沿论文 · arXiv▲ 98

机器人学几何,不再只看2D图

现在的机器人学操作,大多还是把3D世界压成2D图片来理解,就像你透过猫眼看人——能看见动作,但算不准距离和角度。

现在的机器人学操作,大多还是把3D世界压成2D图片来理解,就像你透过猫眼看人——能看见动作,但算不准距离和角度。这篇直接把一个预训练好的3D几何模型(原本用来理解物体形状和空间关系)当成机器人的大脑主干:浅层负责看,中间插一个预测模块,根据你的指令和当前状态,提前算出未来几秒的几何变化,然后深层再把这些预测转成具体动作。结果是在模拟和真实场景里,比那些用大语言模型或视频模型做底座的方案更准、更稳、更快,模型还更小。

它不是你明天就能用的产品,但指明了一个方向:让机器人用3D的脑子想3D的事,而不是硬把3D翻译成2D再猜。

机器人 · 3D几何 · 操作策略 · 语言指令 · 基础模型
阅读全文 →
前沿论文 · arXiv▲ 89

你也能当导演:AI生成视频,镜头随你动

现在的AI视频生成,你只能给个提示词,镜头怎么动完全看AI心情。

现在的AI视频生成,你只能给个提示词,镜头怎么动完全看AI心情。DreamX-World 1.0让你像玩游戏一样控制镜头:你可以指定摄像机路径、回头看看之前去过的地方,甚至中途触发事件(比如让角色开门)。它用了一种叫E-PRoPE的编码技术,把摄像机的位置信息直接嵌入到视频生成中,同时通过记忆机制记住之前生成的画面,避免场景漂移。

在8张RTX 5090显卡上能跑到16帧每秒,基本实时。这不是你明天就能用的产品,但它展示了AI视频从“随机生成”走向“可控交互”的关键一步。

AI视频生成 · 世界模型 · 摄像机控制 · 交互式生成 · 长视频
阅读全文 →
前沿论文 · arXiv▲ 76

给AI配个专职探路员,省60%算力

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。

现在的AI写代码助手有个通病:它一边要翻仓库找文件,一边要写代码,结果翻文件时读到的无关内容会污染它的思路,还浪费大量算力。微软这篇论文的做法很直接——给AI配一个专职的“探路子模型”,只负责快速定位代码位置,不参与写代码。这个探路员能并行搜索,返回精确的文件路径和行号,把主模型从翻仓库的杂活里解放出来。

在多个编程基准测试上,这套方案让修复成功率最高提升5.5%,同时主模型消耗的token减少60%。它不是你明天就能用的工具,但指明了一个方向:把大模型的任务拆成“找”和“做”两个角色,比让一个模型干所有事更聪明。

AI编程 · 代码助手 · 模型分工 · 效率提升
阅读全文 →
前沿论文 · arXiv▲ 71

3B小模型推理能力碾压千亿大模型

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。

一个只有3B参数的小模型,在数学竞赛和编程题上,干翻了DeepSeek V3.2、GLM-5这些千亿级大模型。研究者用了一套「课程学习+强化学习+自蒸馏」的组合训练法,让模型在AIME数学竞赛上拿到94.3分(加测试时缩放能到97.1),在LiveCodeBench编程题上80.2%一次通过,甚至没见过的LeetCode新题也有96.1%的接受率。关键是,它没有牺牲指令遵循能力——IFEval得分93.4。

这挑战了「模型越大越聪明」的常识,暗示推理能力可以被压缩进小模型的核心,而大模型多出来的参数更多是用来装常识和长尾知识。它不是你明天能用上的,但如果你关心AI的效率和成本,这是一个信号:未来可能不需要烧钱堆参数,也能做出顶尖的推理AI。

小模型 · 推理能力 · 强化学习 · 数学竞赛 · 编程
阅读全文 →
前沿论文 · arXiv▲ 65

万亿参数模型也能秒回:Ling/Ring 2.6 的平衡术

大模型要么快但笨,要么聪明但慢。

大模型要么快但笨,要么聪明但慢。Ling-2.6 和 Ring-2.6 是同一家族的两兄弟:Ling 专攻秒级响应,Ring 专攻深度推理。它们不是从零训练,而是从旧模型升级,通过混合注意力机制(闪电注意力+MLA)让长文本训练和推理更快。

更关键的是,他们用“进化思维链”和“最短正确回答蒸馏”等技巧,让模型用更少的 token 输出同样好的答案——这意味着更低的成本和更快的速度。Ring 则用一套叫 KPop 的强化学习框架,在编程、搜索、工具调用等真实环境中稳定训练万亿参数模型。这套方案已经开源,不是明天能用上的那种,但它展示了“又快又聪明”不是梦,而是工程取舍的艺术。

万亿参数 · 混合注意力 · 进化思维链 · 强化学习 · 开源
阅读全文 →
前沿论文 · arXiv▲ 64

AI写代码:循环两次效果最好,三次反而变差

大模型写代码时,重复思考能提升质量,但并非越多越好。

大模型写代码时,重复思考能提升质量,但并非越多越好。研究者发现,让模型把同一段代码逻辑“循环”两次,效果最佳——在SWE-bench(软件工程基准)上得分从43%跃升至64%,三次或更多循环反而导致性能下降。原因是:第二次循环能有效修正错误,但第三次起,模型开始做无意义的微小调整,同时每次循环都会引入位置偏差,成本超过收益。

这解释了为什么“多想一遍”有用,“多想两遍”就多余了。它不是你明天能用上的技巧,但揭示了AI推理的一个底层规律:适度重复有益,过度则有害。

大模型 · 代码生成 · 循环次数 · 性能优化 · SWE-bench
阅读全文 →
前沿论文 · arXiv▲ 36

老师不教梯度,只改题目,小模型反而学得更好

传统知识蒸馏让大模型当老师,逼小模型模仿它的输出(logits),但老师太大时,小模型只学到老师最尖锐的“口音”,反而在没见过的新题上翻车。

传统知识蒸馏让大模型当老师,逼小模型模仿它的输出(logits),但老师太大时,小模型只学到老师最尖锐的“口音”,反而在没见过的新题上翻车。强化学习(RL)让小模型自己试错,可一旦所有尝试都失败(得分为零),老师强行插入正确答案会打乱学习节奏。这篇论文的解法很反直觉:老师不碰梯度,只改题目。

遇到难题,老师把一道题变成两道:一道把正确答案和小模型的错误答案匿名混在一起,让小模型自己选;另一道把小模型的所有错误答案打包,让它看清自己错在哪。这些题被反复投喂,直到小模型答对一半以上才毕业。在Qwen3.5系列(0.8B到9B)上,用27B老师训练视觉语言模型,在31个基准测试中,ZPPO全面超过传统蒸馏和GRPO,模型越小提升越大。

它不是你明天能用上的,但给了一个新思路:教AI不一定靠灌输答案,而是靠设计问题。

知识蒸馏 · 小模型 · 强化学习 · 提示工程 · 教育启发
阅读全文 →
前沿论文 · arXiv▲ 34

让机器人看人类第一人称视频学干活

训练机器人需要大量操作数据,但让机器人自己动手又慢又贵。

训练机器人需要大量操作数据,但让机器人自己动手又慢又贵。这篇论文的思路是:让机器人看人类的第一人称视频(比如你戴着头戴相机做饭、修东西),从中学会动作。研究者建了一条流水线,把人类视频自动转成机器人能懂的“伪动作轨迹”,再和真实机器人数据一起训练。

关键技巧是:用统一动作表示(基于相机空间坐标、形态条件、时间对齐)让两种数据能混用,同时加一个“可靠性权重”来过滤人类视频中的噪声。实验表明,加入人类视频数据后,机器人在桌面操作和双臂操作任务上都达到了新高度。它不是你明天就能用的,但指明了降低机器人训练成本的一条路:用海量人类视频替代部分机器人实操。

机器人训练 · 第一人称视频 · 视觉语言动作模型 · 预训练 · 人类数据
阅读全文 →
前沿论文 · arXiv▲ 34

AI做游戏?最强模型成功率不到一半

让AI从头到尾做一个能玩的游戏,比写代码难得多。

让AI从头到尾做一个能玩的游戏,比写代码难得多。研究者搞了个新测试GameCraft-Bench,让AI在Godot引擎里按文字描述做140个游戏(从贪吃蛇到平台跳跃)。结果最强模型只完成41%,多数不到40%。

AI能做出部分玩法,但做不出完整游戏——缺内容、缺视觉反馈、缺连贯体验。这不是你明天能拿来用的事,但它是衡量AI编程能力的新标尺:能写代码不等于能做出一个能玩的东西。

AI游戏生成 · 编程智能体 · Godot引擎 · 基准测试 · 端到端游戏开发
阅读全文 →
前沿论文 · arXiv▲ 28

AI教授能边讲边写板书了

现在的AI教学助手大多只会生成文字或PPT,但真正的课堂里,老师会板书、高亮、画线——这些动作本身就在传递重点。

现在的AI教学助手大多只会生成文字或PPT,但真正的课堂里,老师会板书、高亮、画线——这些动作本身就在传递重点。这篇论文让AI学会像真人教授一样,一边讲课一边在虚拟黑板上做手势:写公式、圈关键词、画箭头,而且动作和说话内容能对上节奏。核心是两件事:一是把教授拆成「总指挥+专业助手」的团队,总指挥根据你的水平决定讲多深、用什么动作;二是用算法把语音和动作自动对齐,比如讲到「光合作用」时,手刚好指向叶绿体。

实验请了真老师打分,说它比现有AI更像真人授课。它不是你明天就能用的产品,但指明了AI教育从「念稿」走向「表演」的方向。

AI教学 · 多智能体 · 自适应学习 · 虚拟教师 · 教育技术
阅读全文 →
前沿论文 · arXiv▲ 24

AI看病不再非黑即白:用辩论式推理给出连续风险分

医生看病人数据时,需要的不只是“危险/安全”二选一,而是0到100的连续风险分。

医生看病人数据时,需要的不只是“危险/安全”二选一,而是0到100的连续风险分。但现有AI模型往往过于自信,把轻微风险也判成高危,导致误判。这篇研究让AI像辩论一样,先为“病情恶化”和“病情稳定”分别找证据,再综合打分。

结果风险分更连续、更准,校准误差降低81%,而且AI给出的理由比事后解释更靠谱。它不是你明天能用上的,但指明了AI医疗预警从“拍脑袋”走向“讲道理”的方向。

医疗AI · 风险预测 · 大语言模型 · 可解释性 · 临床预警
阅读全文 →
前沿论文 · arXiv▲ 24

城市街景渲染:物理模型+AI修复,视频更真更可控

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。

做城市街景的3D重建和渲染,过去两条路:物理模型算得准但总有瑕疵,生成模型看着真但没法精细控制。这篇把两者拼起来——先用物理模型算出场景的材质、光照等属性,再用生成模型去修掉物理渲染留下的伪影和噪点。结果是你既能像调灯光一样控制场景(比如换时间、插个车进去),又能得到像实拍一样流畅的视频。

做自动驾驶仿真、数字城市、影视后期的人,这是你明天就能试的那种:它支持新视角重打光、夜间模拟、动态物体插入编辑,而且效果比纯物理或纯生成都好。

城市渲染 · 逆渲染 · 物理模型 · 生成模型 · 自动驾驶仿真
阅读全文 →
前沿论文 · arXiv▲ 23

AI模型也能接力跑:谁更靠谱谁领跑

大模型生成答案时,不同模型在不同阶段各有优劣。

大模型生成答案时,不同模型在不同阶段各有优劣。研究者发现,一个模型在生成过程中,如果对答案关键位置的置信度保持稳定,说明它走在靠谱的路径上;反之则可能出错。基于此,他们设计了一种“接力”方法:让多个模型同时生成,实时追踪每个模型在关键位置上的置信度变化,选出当前最靠谱的那个,把它的部分生成结果传给其他模型继续。

这样,不同模型可以在不同阶段贡献自己的优势,最终答案更准确。在多个推理任务上,这种方法比单个模型或简单集成效果更好。它不是你明天就能用上的工具,但展示了未来AI协作的一种可能:不是让一个模型包揽一切,而是让多个模型像接力赛一样,谁状态好谁领跑。

掩码扩散语言模型 · 模型集成 · 置信度动态 · 推理任务
阅读全文 →
前沿论文 · arXiv▲ 21

AI 助手学会从失败中进化,成本直降98%

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。

你手机里的 AI 助手如果一直开着摄像头,每分钟上传60帧画面,一小时就是3600次 API 调用,账单吓人。VisualClaw 用两级筛选:先快速扔掉99%的重复帧,再只把关键画面和技能库压缩后上传,一小时只调用5-20次,成本降98%。更关键的是,它会在失败后自我进化——把错误记忆存下来,下次遇到类似问题直接调取改进后的策略,在 EgoSchema 视频问答上准确率最高提升15.8%。

这不是你明天就能下载的 App,但它是让 AI 助手从“烧钱且死板”走向“省钱且越用越聪明”的关键一步。

AI 助手 · 视频理解 · 成本优化 · 自我进化 · 边缘计算
阅读全文 →
前沿论文 · arXiv▲ 20

AI学会自己挑经验、写笔记、升级,9B模型挑战397B

现在的AI智能体虽然能记住对话历史,但不会判断哪些经验有用、怎么用、怎么记下来。

现在的AI智能体虽然能记住对话历史,但不会判断哪些经验有用、怎么用、怎么记下来。这篇论文让AI学会一套完整的自我进化流程:先快速试错积累经验,再慢速提炼出可复用的知识。具体做法是给AI设计四层记忆结构(读、用、写、维护),并通过自我蒸馏把进化能力内化到模型参数中。

结果很惊人:9B参数的模型在多个任务上超过了397B的巨无霸。这不是你明天能用的功能,但它指向一个方向——未来的AI可能不再需要频繁更新版本,而是自己就能在运行中变强。

自我进化 · 记忆管理 · 知识蒸馏 · 智能体 · 小模型挑战大模型
阅读全文 →
前沿论文 · arXiv▲ 18

AI学会从“未来的自己”身上偷师

大模型训练通常需要人类反馈或大量数据,但这篇论文让AI自己教自己——而且是从“未来的自己”那里学。

大模型训练通常需要人类反馈或大量数据,但这篇论文让AI自己教自己——而且是从“未来的自己”那里学。研究者针对扩散语言模型(一种非逐字生成、而是整体“显影”出文本的模型)设计了一套新方法:让模型先生成完整答案,再回头用这个答案作为“未来经验”去指导自己优化推理过程。在四个推理测试中,它只用强化学习十分之一的训练步数就超越了传统方法。

这不是你明天能直接用的工具,但它指向一个趋势:AI可能不再需要那么多人类标注,而是靠自我迭代变得更聪明。

扩散语言模型 · 自蒸馏 · 自我学习 · 推理优化
阅读全文 →
前沿论文 · arXiv▲ 14

给扩散模型戴上降噪耳机:只留信号,屏蔽噪声

扩散模型生成图像时,每一步都要从带噪图片里猜信号。

扩散模型生成图像时,每一步都要从带噪图片里猜信号。但噪声和信号在频率上天然可分:低频是结构,高频是噪声。这篇论文发现,如果让模型在输入时就主动滤掉高频噪声(用可调的低通滤波器),它就能把算力集中在真正需要建模的低频信号上,而不是浪费在预测“噪声该长什么样”上。

在ImageNet和商业模型SenseNova-U1上,这个无参数、即插即用的操作稳定提升了图像质量和评测分数。它不是你明天就能直接用的工具,但揭示了一个反直觉的事实:给AI“降噪”不是削弱它,而是帮它聚焦。

扩散模型 · 频率滤波 · 信号分离 · 计算效率 · 图像生成
阅读全文 →
前沿论文 · arXiv▲ 14

给AI世界模型加个“坏世界”

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。

你给AI一张照片,它就能想象出接下来会发生什么——比如你开车时前方路况的变化。但研究者发现,只要在照片上加上人眼几乎看不出的微小噪点,AI的“想象”就会彻底崩溃:画面扭曲、结构崩塌、动作失控。他们发明了一种叫BadWorld的攻击方法,不需要知道未来真实画面,也不需要预测你会怎么操作,就能让AI的预测完全跑偏。

这听起来很危险,但反过来想,它也能用来保护隐私——比如给你的照片加一层“隐形干扰”,让AI无法正确模拟你的行为。

世界模型 · 对抗攻击 · AI安全 · 隐私保护
阅读全文 →
前沿论文 · arXiv▲ 14

用一句话让机器人想象未来画面

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。

你给机器人说一句“把杯子推到左边”,它就能生成一段视频,展示接下来几秒会发生什么——杯子真的被推过去了。这不是真的在动,而是机器人在脑子里“想象”出来的物理世界。Qwen-RobotWorld 把自然语言当作统一遥控器,让同一个模型能预测机械臂、自动驾驶、室内导航等不同场景的未来画面。

它靠一个60层双流扩散变压器,把语言和视频特征一层层融合,再喂进860万条视频-文本数据训练。结果在多个评测榜上排第一。它不是你明天就能用的产品,但它是让机器人学会“预演”动作后果的关键一步——就像人类做决定前先脑补一下。

世界模型 · 视频生成 · 机器人 · 语言控制 · 物理模拟
阅读全文 →
🔬 前沿研究
前沿研究 · @aimlapi▲ 43.6万

同个prompt写可玩游戏,GLM-5.2比Opus更快更便宜

相同任务下,GLM-5.2完成了全部游戏机制,耗时更短,花费也更低。

GLM-5.2 现已在 AI/ML API 上可用!我们用同一个提示词,让它和 Opus 4.8 一次性生成一个可游玩的 Backrooms 游戏。

Opus 实现了手电筒功能,但无法奔跑也不能暂停。GLM-5.2 则做全了所有机制。

Opus:用时 2 分 14 秒,花费 1.94 美元

GLM:用时 1 分 08 秒,花费 0.37 美元

文档、指南和设置教程在下方:

在 X 看原帖 ↗
43.6万27371126
前沿研究 · @dair_ai▲ 226

大语言模型智能体能探索看不见的环境吗?

这是一项新研究,首次让这个问题可以被量化评测。大语言模型智能体需要通过交互,找出隐藏的确定性有限自动机。

大语言模型智能体真的能为它看不见的环境建立模型吗?这项研究让这个问题变得可评估了。

智能体需要通过与预言机交互来 uncover 一个隐藏的确定性有限自动机,交互方式是成员查询(这个字符串属于该自动机吗?)和等价……

在 X 看原帖 ↗
22633
前沿研究 · @togethercompute▲ 3.3K

测了大模型做游戏:贵十倍的模型做出来差不多

找人做小游戏不用硬选最贵的大模型,开源模型成本低速度快,做出来的成品质量和贵价模型差不了多少

我们让闭源模型和开源模型各自构建小型可玩游戏,以此测试它们的表现。开源模型成本低得多,速度也快得多,产出的游戏质量往往和闭源模型不相上下。

Opus 4.8 的价格是 MiniMax M3 的 15 倍。

GPT-5.5 的价格是 Nemotron 的 10 倍。

在 X 看原帖 ↗
3.3K5276
前沿研究 · @Hesamation▲ 235

Anthropic报告:专家用Claude反而产出更多

同样和Claude对话,专家能得到更有价值的结果,差异源于提问方式、用词和引导AI的能力。

专家能从 Claude 中获得更多价值~ 根据 Anthropic 的报告。这是因为: > 他们提出的问题 > 他们使用的词汇 > 以及引导 AI 的能力

在 X 看原帖 ↗
235112
🚀 新品发布
新品发布 · @vercel▲ 4.6K

Vercel推出新框架,就像Next.js给AI代理用

做AI代理开发的开发者,可以获得开箱即用的开发框架支持,不用从零搭建项目结构

推出 eve,一个智能体框架。

目录结构:𝚊𝚐𝚎𝚗𝚝/ 𝚊𝚐𝚎𝚗𝚝.𝚝𝚜 𝚒𝚗𝚜𝚝𝚛𝚞𝚌𝚝𝚒𝚘𝚗𝚜.𝚖𝚍 𝚝𝚘𝚘𝚕𝚜/ 𝚜𝚔𝚒𝚕𝚕𝚜/ 𝚜𝚊𝚗𝚍𝚋𝚘𝚡/ 𝚜𝚌𝚑𝚎𝚍𝚞𝚕𝚎𝚜/

它就像是智能体领域的 Next.js。

在 X 看原帖 ↗
4.6K136022
新品发布 · @OsaurusAI▲ 6.5万

终于能自己拥有AI了,不用租也不用注册

一直用的云端AI都是按月付费租用,现在出了本地运行的开源版本,不用注册账号也不用申请密钥,完全免费

你一直在租赁你的AI。这就是拥有它的样子。

本地模型。无需账号。无需密钥。免费。开源。不基于Electron。

在 X 看原帖 ↗
6.5万59819833
新品发布 · @GabriCorso▲ 7.1万

分子蛋白设计又出两个最新验证的大模型

做生物研发相关工作,可以用新API在可扩展GPU上运行这些模型

来自 Boltz 的重大消息——这是我们迄今为止规模最大的更新!🚀

今天我们发布了两款用于蛋白质和小分子设计的全新顶尖模型,它们经过了 extensive wet lab 验证,同时我们还推出了全新 API,可让你(或你的智能体)在任何工作场景下,依托可扩展 GPU 运行我们的全部模型!🔥

在 X 看原帖 ↗
7.1万168761418
新品发布 · @CloudflareDev▲ 2.0万

GLM 5.2开源模型现已上线Workers AI平台

Cloudflare成为GLM 5.2的发布合作伙伴,持续支持开源模型生态发展

GLM 5.2 现已上线 Workers AI。

我们很高兴能成为首发合作方,支持开源模型生态。

在 X 看原帖 ↗
2.0万1729636
新品发布 · @NotionHQ▲ 2.0万

Notion上线了新开源权重大模型GLM 5.2

长期任务场景用上了新模型,有需要可以去Notion体验这个新模型

全新开放权重模型:GLM 5.2 现已在 Notion 可用。

专为长周期任务构建。

由 @baseten 提供服务。

在 X 看原帖 ↗
2.0万2020733
新品发布 · @quantscience_▲ 2.1万

免费开源多智能体LLM交易框架发布了

做量化交易可以直接用这套开源框架搭建策略,不需要从零开始开发。

🚨突发消息:Python 推出了全新开源多智能体 LLM 交易框架。它名叫 TradingAgents。下面介绍它的功能(以及如何免费获取它):🧵

在 X 看原帖 ↗
2.1万40287428
新品发布 · @AskVenice▲ 2.8万

智谱GLM 5.2开源模型上线,支持Pro用户完全私有

用来驱动智能代理和长周期智能代理编程,有高低两种推理模式处理高难度问题,需要Pro用户使用。

GLM 5.2 现已在 Venice 上线。

这是 @Zai_org 推出的前沿开源模型,专为驱动智能体和长周期智能体编程构建,针对最高难度问题提供了 High 和 Max 两种推理模式。

Pro 用户可以获得完全私有部署的使用权限。

在 X 看原帖 ↗
2.8万2619112
新品发布 · @thesupermanmx▲ 5.4万

MIT开源了能把照片转成CAD模型的AI工具

时薪150美元的CAD服务,现在有了全开源免费的替代路径,成本直接降到零。

MIT 刚刚开源了一款可能终结每小时 150 美元 CAD 行业的模型。它名叫 GenCAD。

它可以将照片转换为完全可编辑的 CAD 程序。你只需要上传一张草图或照片,它就能生成完整的参数化 3D 模型。

100% 开源。

在 X 看原帖 ↗
5.4万1601.2K1.4K
新品发布 · @CommandCodeAI▲ 4.2K

GLM-5.2开源推理模型上线,100万上下文窗口

花1美元开通入门套餐就能用,还包含10美元使用额度,更新后就能直接安装使用

GLM-5.2 现已在 Command Code 上线!这是一个前沿开源推理模型,专为长周期任务构建。

100万上下文窗口。强大推理能力。开源可用。

1美元Go套餐及10美元使用额度以上的订阅都可使用!!

$ npm i -g command-code@latest

在 X 看原帖 ↗
4.2K711310
新品发布 · @victormustar▲ 1.2K

端侧级别的大模型,现在开源放到社区了

智谱GLM-5.2已经上传到Hugging Face,开源AI终于有了顶级性能的可选方案

GLM-5.2 现已上线 Hugging Face 🔥

对开源 AI 而言,这是重要的一天:达到 opus 级前沿智能水平,支持 1M 上下文,原生设计以智能体能力优先。

——AI 与人类的未来,是开放的

在 X 看原帖 ↗
1.2K5263
新品发布 · @LangChain▲ 821

不用事后加装 AI 智能体治理功能啦

搭建、观测和评估智能体的同一平台,就能直接启用规则管控

智能体治理不应该是事后硬接到智能体系统上的东西。

LangSmith LLM Gateway 允许你在构建、观测和评估智能体的同一平台上执行规则。

在 X 看原帖 ↗
8212134
新品发布 · @SERobinsonJr▲ 301

专门做SpaceX AI项目的工程公司成立了

这家公司把资深工程师团队派驻进企业,专门设计搭建扩展基于Grok的定制智能代理系统

SPACEXAI:Scott Kamra 和 Tom Abbott 创立了 Galatiq(@GalatiqAI),这是一家专门为 SpaceXAI 打造的前沿工程公司。

它将高级工程团队嵌入企业内部,负责设计、搭建和扩展定制化的、基于 Grok 的智能体系统。

The company

在 X 看原帖 ↗
30115
📰 行业动态
行业动态 · @thaiscbranco_▲ 97.3万

新公司拿了1850万美元,要终结劣质AI内容

现有AI擅长生成客观内容,但审美判断仍不到位。这家公司要做数据和基础架构,帮AI学会审美判断,先从设计领域做起。

我们很荣幸推出 Taste Labs。我们的使命是终结 AI 垃圾内容。

我们正在打造数据与基础设施层,为 AI 模型和智能体赋予品味。

今天我们结束隐身模式,宣布完成 1850 万美元种子轮融资,由 @CRV 和 @AmplifyPartners 共同领投。

AI 已经搞定了客观领域,让生成任何内容都变得容易。但它给人的感觉仍然不对劲。如今,挑战在于判断力:什么是合适的,什么符合你的风格,什么算得上出色。

这要求我们把一个模糊、主观的领域,转化成可以衡量和编码的东西。我们从设计领域切入。要解决这个问题,需要分两个方向推进:基础模型层和智能体层。

- 我们已经和顶级前沿实验室合作,评估并改进他们的模型,打造合适的后训练数据和强化学习环境。

- 我们也和应用层公司合作,为他们的智能体构建上下文与验证工具,帮助它们产出更优质、更贴合品牌、更有创意的输出。

我们想要一个 AI 输出让人感觉自然舒服的未来。如果你也对这个使命充满热情,加入我们吧!

在 X 看原帖 ↗
97.3万1502.5K1.8K
行业动态 · @AMD▲ 2.8万

本地就能跑3000亿参数大模型,它做到了

开发者和创作者不用靠云端算力,在本地设备就能运行超大参数大语言模型

AI 模型体量越来越大,它们需要运行空间。🧠

@wccftech 重点报道了 AMD Ryzen AI Max PRO 400 Series 处理器,该处理器最高配备 192GB 统一内存,可帮助开发者和创作者在本地运行参数量超过 300B 的大语言模型。

在 X 看原帖 ↗
2.8万4946145
行业动态 · @itsyourcode▲ 2.3万

能处理十亿行数据的AI数据代理拿到了九百万美元融资

刚拿到融资的创业项目,已经放出了分析超十亿行原始数据的未剪辑演示

宣布推出 Probably:可验证数据代理。

我们完成了由 @a16z 和 @Accel 领投的 900 万美元种子轮融资,用于开发一款能够摄取、转换、分析和可视化原始数据的 AI 代理。

下面是一段未经剪辑的单镜视频,演示分析来自 Clickhouse 的 10 亿+行 NOAA 气象数据 👇

在 X 看原帖 ↗
2.3万147364
开源 · @DarioCpx▲ 2.2万

微软投千亿给OpenAI,转头转用国产开源模型

有人说国产开源DeepSeek模型性价比很高,哪怕微软已经给OpenAI投了上千亿,也开始转向用它。

DeepSeek 开源模型的性价比高到什么程度?哪怕微软在 OpenAI 这个烧钱大坑里亏了几千亿之后,都转用它了。

再说一遍,一切都在按照我之前告诉过你的方向发展。

在 X 看原帖 ↗
2.2万5335537
大模型 · @vercel_dev▲ 1.3万

GLM 5.2开放权重,还支持100万token上下文

智谱GLM 5.2支持处理百万长度的文本,适合处理整个项目级的长代码工程,现在已经开放权重可以用了。

GLM 5.2 已在 AI Gateway 可用。它是 @Zai_org 首个拥有 1M token 上下文窗口的模型,专为长周期、项目级工程任务构建。模型 ID:`zai/glm-5.2`

GLM 5.2 是开放权重模型,在代码编写和智能体循环中表现出色。又是一天,又有一个超棒的开源模型诞生了!

Kimi 2.7 和 GLM 5.2 正处于激烈竞争中。今日起,它就已和 Opus 4.8、GPT 5.5 一同上线 ChatLLM。

在 X 看原帖 ↗
1.3万2022422
AI代理 · @rauchg▲ 3.5K

做AI代理最难的,居然不是写AI本身

做能帮你自动干活的AI代理,最难的部分不是训练大模型,而是搞定权限、令牌这些对接现有服务的琐碎环节,明明AGI已经摆在那了。

构建智能体最难的部分,其实不是构建智能体本身。难的是数据。

讽刺的是,难的是搞清楚 OAuth、令牌、凭证、权限范围……

我们已经有 AGI 摆在那,就等解锁使用了。

Vercel Connect 同时解决了安全性和易用性问题。用起来体验很棒。

在 X 看原帖 ↗
3.5K7607
硬件 · @BrianRoemmele▲ 8.1万

民间工程师把整个AI模型直接烧进芯片里

一位车库工程师做了一块定制芯片,把完整Transformer大模型(带KV缓存)直接烧进去,不用GPU、CPU,也不用云,开机就能跑。

令人震撼的硬件突破:一名开源车库工程师将一整个AI Transformer模型(含KV缓存)直接烧录进了一块定制数字芯片:没有GPU,没有CPU,没有云。

只靠纯硅运行microGPT,在仅80 MHz的频率下达到了56,000+ tokens/秒的速度。而且它的能耗比一台计算器还低。

目前已在FPGA上完成原型,现在已经能在一块小型LCD上拼出名字了。

这就是GateGPT,端侧AI的宏大未来已经到来。这项技术可以也必将扩展到更大的模型上。

效率高得离谱。纯粹的数字魔法。

在 X 看原帖 ↗
8.1万2451.6K688
工具 · @0x0SojalSec▲ 4.2K

给逆向工程师出了AI插件,一键看懂诡异代码

做二进制逆向分析的工具IDA Pro出了AI插件,点一下就能自动解释奇怪的代码逻辑,还能自动给函数重命名,提示漏洞点。

这是适用于 IDA Pro 9+ 的 AI 驱动逆向工程插件。

它支持一键解释,可立刻理解怪异控制流,还提供智能自动重命名建议、漏洞提示、语义图、RAG 搜索与文档。

对逆向工程、恶意软件分析从业者和 CTF 玩家来说,这是能彻底改变游戏规则的工具。

在 X 看原帖 ↗
4.2K279480
机器人 · @Rewkang▲ 3.9万

FigureAI直播把投资人胃口勾起来了,机器人要火

一直以来机器人领域拿到的投资都远少于AI,这次FigureAI的直播展示,让风投对机器人的兴趣达到了新的高度。

FigureAI 这场直播对风投而言是一次迷你 ChatGPT 时刻。

机器人领域的融资规模传统上一直落后于 AI 融资,但我们现在正迎来前所未有的新一轮投资者兴趣浪潮。

这股浪潮会传导到数据收集、供应链搭建环节,还会推动更多人才进入这个行业。

在 X 看原帖 ↗
3.9万1316628
大模型 · @XFreeze▲ 8.6K

马斯克的Grok 4.3现在能在AWS上直接用了

xAI的Grok 4.3是侧重推理的大模型,现在已经放到亚马逊AWS的Bedrock平台,企业可以直接在AWS环境里用它开发产品。

Grok 4.3 现已在 Amazon Bedrock 上线。

企业现在可以直接在 AWS 内部使用 xAI 的推理优先模型进行开发。

Grok 4.3 支持可配置推理强度、强大的工具调用、指令遵循、结构化输出、响应流式传输,以及智能体工作流。

AWS 表示,它特别适合客户支持、网页开发、判例法研究、金融文档问答、搜索、聊天,以及多轮企业工作流。

xAI 目前正将 Grok 直接接入企业已经在使用的基础设施中。

在 X 看原帖 ↗
8.6K2113515
行业动态 · @FinanceLancelot▲ 44.7万

微软换用开源DeepSeek做Copilot,想省成本

为了降低成本,微软计划给Copilot换用开源模型DeepSeek,改用按使用量收费的定价模式。

这对 Sam Altman 是一记重击,由于成本问题,微软计划将 $MSFT Copilot 改为按使用量定价,并改用开源 AI 模型 DeepSeek,而非 OpenAI。

在 X 看原帖 ↗
44.7万3284.2K502
行业动态 · @StockSavvyShay▲ 6.1万

花6.43亿美元买公司,只为榨干AI芯片算力

这笔收购能帮开源大模型推理,从每块英伟达芯片里挤出更多tokens,最终降低客户的使用成本

$NBIS 已完成对 Eigen AI 的收购,交易金额约为 6.43 亿美元,此举进一步强化了 Nebius Token Factory 作为前沿推理平台的地位。

Eigen 能帮助 Nebius 从每一块 $NVDA 芯片中获得更多 token,提升性能、降低客户成本,并优化开源模型工作负载。

在 X 看原帖 ↗
6.1万711.1K72
学习 · @Muzamil_AI▲ 6.4K

整理了5家大厂官方免费学AI的地方

从AI安全基础到提示词工程,全都没有付费墙,内容都是做AI的公司自己出的。

阅读全文 →
6.4K64823
工具 · @Bitcoin188▲ 1.2万

有人把OpenAI Codex改成了全自动视频工厂

只需要输入一句话,就能搞定从脚本、分镜到剪辑、渲染的整条视频流水线,相关工具都放在GitHub开源。

阅读全文 →
1.2万36161178
学习 · @shushant_l▲ 2.2K

有人整理了从入门到实用的分级AI学习路径

从认识AI是什么、大模型基础原理,到普通用户该怎么用提示词,分了两个级别整理归档。

阅读全文 →
2.2K166945
AI能力 · @teodorio▲ 351

这款大模型居然第一次模拟出了稳定的心智

有人测试后发现,Fable能模拟可信的心智理论(理解他人想法的能力),还能自己从无效生成的死胡同里走出来

Fable 是我第一次见到有大语言模型能模拟出可靠的心智理论,还能把自己从token的绝望陷阱中拉出来。

这是开源迄今为止最好的日子之一,就像我反复说过的,中国模型达到Fable级能力只是时间问题。

美国的Mythos禁令是搬起石头砸自己的脚,因为它只会损害西方AI创新,却起不到什么作用。

在 X 看原帖 ↗
3511131
商业 · @hwchase17▲ 507

AI企业现在给编码代理花的钱涨疯了

不少AI企业近几个月对编码代理(帮人写代码的AI工具)的投入大幅增加,有人正在搭建支持这类工具的专用大模型网关

和很多信奉AI的机构一样,过去几个月里,我们在编码代理上的支出增长非常显著。

我们正在构建的LLM网关(目前已开放非公开预览),核心功能之一就是成本控制与可见性。

我们的实现方式如下:
1/ 准确、实时

在 X 看原帖 ↗
50732
AI工具 · @dotey▲ 336

Codex操控电脑的三种方式,整理好适用场景了

Codex团队成员整理出三种不同方法,其中Computer Use可以像人一样看屏幕点鼠标,操作电脑里任意图形软件

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。

Spotify、Xcode、系统设置、iOS 模拟器,甚至

在 X 看原帖 ↗
336110
AI工具 · @LangChain▲ 1.6K

新推出的LangSmith Fleet,给用户提供两种代理选择

分为通用对话代理和专用任务代理,官方解释了两类代理分别适合什么时候用,目前已经推出

LangSmith Fleet 有两种类型的智能体:✅ 通用对话 ✅ 专业智能体。

@BraceSproul 讲解了我们为什么提供这种选择,以及每种智能体的适用场景。

在 X 看原帖 ↗
1.6K41
AI行业 · @_simonsmith▲ 35

有人给AI行业画了一张双维度发展坐标系

横轴标记AI的自主程度,纵轴标记AI的智能水平,发帖人希望能收到更多补充调整的意见

AI 领域并非一维的。我在此尝试绘制出它的两个维度,我还没有给它们命名,但我认为 X 轴是「自主性」,Y 轴是「智能」。

欢迎告诉我哪里错了,以及我漏掉了什么。

在 X 看原帖 ↗
3521
开源AI · @code_star▲ 112

大家都在猜Mistral年底会开源最大模型

有AI开发者祈祷Mistral AI能在年底开源它迄今为止最大的模型,还帮想好了名字叫Le Chaton Slim

祈祷@MistralAI能在今年年底开源他们有史以来最大的模型,并且把它命名为Le Chaton Slim。

在 X 看原帖 ↗
1126
💡 深度观点
深度观点 · @ArthurB▲ 4.8万

有人提出中国开源大模型的另一种动机

这是行业观察人士提出的一个观点,关心大模型行业格局的人可以参考这个不同角度的推测

理论:中国鼓励发布开源模型,是因为他们认为中国以外的客户反正不会信任运行在中国数据中心里的模型,所以他们能做的最优策略,就是尝试侵蚀美国前沿实验室的边际利润,不让这些实验室更快地实现复利增长。

在 X 看原帖 ↗
4.8万1846760
深度观点 · @ai_for_success▲ 1.5万

开源大模型性能追上闭源顶级模型了

这次放出的GLM 5.2,性能超过Gemini 3.1 Pro,接近GPT 5.5和Opus 4.8,代码和智能体任务都有大幅提升,而且完全开源可商用

开源必须胜利。现在发生在Fable 5和Anthropic身上的事,让这件事变得比以往更重要。

Z ai刚刚发布了GLM 5.2,这是一个强到离谱的开源模型,性能超过了Gemini 3.1 Pro,已经非常接近GPT 5.5和Opus 4.8。

- 编码和智能体任务性能大幅提升
- 1M上下文窗口
- MIT许可开放权重
- API定价与GLM 5.1一致

这才是我们真正需要的未来。

在 X 看原帖 ↗
1.5万2422930
深度观点 · @tleilax___▲ 3.1万

当前最强编程开源模型,只用了美企5%算力

此前有观点认为开源AI模型已经落后,现在有人打破了这个判断,算力投入小也能训练出顶尖水平的模型。

所以你是在告诉我,目前花钱能买到的最强代码模型,是一个只用了美国前沿实验室可用算力约5%训练出来的中国开源模型?

看来这就是@TMTLongShort“开源模型正在落后”这个论点的最后一根棺材钉了。

在 X 看原帖 ↗
3.1万2020781
深度观点 · @fchollet▲ 1.0万

要让所有人用上开源强AI,得靠符号学习?

要实现全民可用的开源强AI,核心是降低AI对推理算力和训练数据的需求,这正是符号学习能做到的事。

要构建一个强大AI开源开放、人人可用的未来,我们要做的是让AI效率实现根本性提升——无论是推理算力方面,(更重要的是)训练数据需求方面都要提升。

符号学习将实现这一目标。

在 X 看原帖 ↗
1.0万1615726
深度观点 · @emollick▲ 4.4K

企业AI现在安稳,可能只是中场休息

当前企业AI只提升生产力,还需要人工整合进工作流,这只是一个中途节点,不是稳定状态,AI未来可能自己完成整合

我们正处于面向企业的AI最舒服的「常规技术」阶段:它能提升生产力,但仍需要整合进工作流——这都是我们之前见过的情况!

但这非常有可能只是一个途经点,而非稳定阶段。未来AI或许可以自己完成整合工作。

在 X 看原帖 ↗
4.4K28712
深度观点 · @fofrAI▲ 1.8K

AI能写喜剧的那天,才会迎来通用人工智能?

这是关于通用人工智能什么时候出现的一个判断。

当AI能够创作喜剧时,我们就拥有了AGI。

在 X 看原帖 ↗
1.8K130
深度观点 · @ericosiu▲ 135

现在最大的AI商机,还没多少公司摸透

想靠AI抢商机的人,可以提前研究这个方向,现在大部分公司还没找到门道

当前AI领域最大的机遇,就是将循环应用于企业运营。大多数公司还没有想明白这件事。

以下几个例子可以帮你抢占先机:

在 X 看原帖 ↗
13522
⚡ 实战经验
实战经验 · @QuasarModels▲ 1.4万

小团队做的开源AI模型,已经冲上热门榜第二页

开源社区已经做出能在Mac和本地运行的版本,这个小型实验已经被整个开源AI圈注意到。

Quasar 正在 Hugging Face 上成为热门趋势。

说明一下背景:HF 是 AI 模型的核心枢纽,所有重要的开源模型都托管在这里。

我们目前已经排在榜单第二页,和 Xiaomi、Qwen 以及 Liquid AI 并列,而这还只是我们从小型模型实验中取得的成果!

ML 社区已经注意到了我们。这不只发生在 Bittensor 上,也发生在更广阔的开源世界里。

开源社区已经搭建好了 MLX 和 GGUF 版本,因此 Quasar 可以在 MacBooks 和本地 AI 环境中运行。

我们才刚刚起步。

在 X 看原帖 ↗
1.4万3514314
实战经验 · @omarsar0▲ 3.0K

国产开源大模型GLM-5.2初步表现亮眼

在开源大模型前沿赛道没有多余试错,目前已出的结果显示表现超出预期,静待长任务测试结果出炉

在开放权重模型的前沿领域不浪费一点时间。从我看到的结果来看,GLM-5.2 表现十分出色。

我非常好奇它在长周期任务上的表现如何。

在 X 看原帖 ↗
3.0K4225
实战经验 · @llama_index▲ 1.3K

好文档居然能帮AI agent省这么多成本时间

优化 Claude 解析PDF的自定义能力后,找到AI agent重复读同一份文件浪费成本时间的问题。

好的文档能为 AI 智能体节省多少成本和时间?结果是,能省很多。

我们构建了一个自定义技能,教 Claude 更高效地解析 PDF,然后用真实使用轨迹找出它在哪里浪费了时间和金钱(反复重读同一个文件,

在 X 看原帖 ↗
1.3K41011
实战经验 · @togethercompute▲ 1.0K

换开源微调模型后,语音代理成本砍了六倍

想做实时语音AI的开发者,能靠这套方案压低服务成本,还能维持低延迟满足实时需求

@DecagonAI 借助 Together AI 将语音代理每轮成本降低了近 6 倍。他们从闭源模型切换到了微调后的开源模型,同时保持了足够低的延迟,满足实时语音需求:

→ 每轮 p95 模型延迟低于 400 毫秒
→ 自定义投机解码与提示缓存
→ 优化完成

在 X 看原帖 ↗
1.0K2131
实战经验 · @CycleDecoded▲ 3.8K

公众号AI全流程运营工具居然已经开源了

做公众号的人可以用这套自动化流程,把内容产出效率提5倍以上,项目完全开放可用。

别再纯手工写公众号了!分享一套刚开源的微信公众号 AI 运营全流程 Skill。这次不只是简单的 Prompt,而是直接打通了底层 AI Agent 生产力: 1️⃣ 选题与写稿:基于 OpenClaw / Claude Code 自动化抓取热点并生成大纲 2️⃣ 审稿与优化:利用 Codex 智能校对,精准规避敏感词与逻辑漏洞 3️⃣ 排版与配图:通过 Cursor 快速实现自动化样式编排,一键成文 实测这套流派把内容产出效率提升了 5 倍以上,完全打通了新媒体的“硅基工作流”。

项目完全开源,抓紧接入你的工作流: 👉 GitHub:

在 X 看原帖 ↗
3.8K197491
实战经验 · @cj3214567667▲ 9.6K

想练AI Agent?这里有Codex保姆级完整教程

找不到Codex入门路径的人,可以跟着完整教学一步步学,学会指挥超级AI Agent,用AI放大自己的做事能力

火遍全网的codex到底怎么用?YouTube博主学长Ethan手把手教你:Codex从入门到进阶,保姆级完整教学。教你自主搭建工具、自动化处理各种事务的AI硬核能力,快速掌握指挥超级AI Agent的技巧。

适合想用AI放大能力的朋友!

在 X 看原帖 ↗
9.6K177888
实战经验 · @PierceZhang34▲ 4.5K

大模型算法也有专属LeetCode,入门进阶能刷题

想从只会看大模型理论,练到会写会调会优化,这里有分知识点的可运行练习,还有本地测试可以反复练

程序员小伙伴们刷起来 -- 大模型算法的leetcode LLM Algorithm Practice Lab 这是一个面向大模型入门到进阶的算法实战教程,聚焦 Python、PyTorch、Transformer、推理优化、显存管理与 CUDA/Triton 实战 把每个知识点做成可运行、可验证、可回顾的 Jupyter Notebook 练习,帮助你从“会看”走到“会写、会调、会优化” 本项目仅限于纯粹的大语言模型(LLM)领域,不包含 Diffusion 或多模态,并配备本地测试用例,提供可反复练习和回顾的学习路径 项目特点 高度垂直:专注 Transformer、MoE、量化、推理加速与显存优化 工程导向:使用 PyTorch、Triton 或 CUDA C++ 实现核心算子和系统逻辑 测试驱动:每道题都配套本地测试和性能验证 传送门👉

在 X 看原帖 ↗
4.5K1990103
实战经验 · @NFTCPS▲ 6.9K

从零手搓GPT,不用高级库全流程给你拆明白

想真正搞懂AI原理,不想只当调包侠,可以从这个仓库入门,用免费算力练一天就能出结果

天天喊着搞AI,结果你连Transformer是个啥都说不清?

有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链都有:

1️⃣ 数据下载、预处理、训练、生成一条龙
2️⃣ 训练数据用The Pile,22个来源825GB
3️⃣ tiktoken分词,存HDF5
4️⃣ 预训练之后还给SFT和RLHF的路子

改几个配置就能调大小。13M参数左右就开始拼对语法和单词,白嫖Colab或Kaggle的T4,练一天就出活。

想真懂原理、不想当调包侠,从这儿入门最干净。

在 X 看原帖 ↗
6.9K299181
实战经验 · @GoogleAIStudio▲ 1.0万

不用写复杂代码,AI Studio直接做安卓APP

想做安卓APP又嫌麻烦,可以跟着这份分步速通指南操作,直接在AI Studio里创建后在手机运行

在 AI Studio 中创建安卓应用并在你的手机上运行,这是 @patloeber 整理的快速分步指南:

在 X 看原帖 ↗
1.0万19195114
实战经验 · @LangChain▲ 1.7K

Deep Agents核心能力有两分钟教程讲透了

想学习Deep Agents开发,能花不到两分钟看懂Deep Agents最重要的上下文管理能力

Deep Agents深度解析第二部分 | 上下文管理

来自@SydneyRunkle的讲解,时长不到2分钟,介绍Deep Agents工具链中最重要的能力之一

在 X 看原帖 ↗
1.7K4165
📌 其他
工具产品 · @thsottiaux▲ 6.1K

Codex工具居然不限OpenAI模型还能用开源

已经用Codex开发的人,不用绑定OpenAI模型,更换其他开源模型也能继续用这套工具

提醒一下,你可以将 Codex App、CLI 和 SDK 用于任何开源模型,并非只能用于 OpenAI 模型。

在 X 看原帖 ↗
6.1K2629379
大模型 · @emollick▲ 1.1万

业内观点:开源大模型滞后闭源8-12个月需提前防护

专家称开源大模型滞后闭源8-12个月,需4-8个月内强化IT系统防护

假设开源模型持续落后闭源模型约 8-12 个月(至少在编码领域是如此),那么针对 Mythos 级模型加固 IT 系统的倒计时目前还剩 4-8 个月。

现在就拥有可公开获取、相对安全的防御性 Mythos 级模型,是一件很重要的事。

在 X 看原帖 ↗
1.1万1927018
大语言模型 · @omarsar0▲ 1.3万

AI从业者探讨大语言模型智能体验证器的重要性

指出优质验证器对LLM智能体至关重要,建议调优自定义验证器

验证器非常重要。没有合格的验证器,/goal 和 /loop 会频繁出问题。只要是 LLM 分布外的内容,智能体就很难正确验证工作。

我认为你值得去微调自己的验证器,研究出如何把它们接入你现有的智能体。

如果你感兴趣,我在这里分享了更多相关内容:

如果微调对你来说资源消耗有点高,我认为验证器是个很好的用例,可以用来探索微调专用模型是否能带来价值增益。LLM-as-a-Judge 系统也是如此。

在 X 看原帖 ↗
1.3万1210264
开源开发 · @VincentLogic▲ 11.1万

开发者借MCP插件打通ChatGPT与Codex互补能力

Codex黑客松诞生MCP插件,打通ChatGPT与Codex实现能力互补

有人在 Codex 黑客松上做了一个 MCP 插件,把 ChatGPT 和 Codex 打通了 解决的问题很具体:GPT 5.5 Pro 是目前规划和调研最强的模型,但 Codex 里用不了。Codex 擅长执行,但规划能力不如 5.5 Pro 他的做法是用 MCP 把本地开发环境暴露给 ChatGPT,让 5.5 Pro

这个项目背后有一个更大的趋势值得注意 MCP 协议正在变成 AI 工具之间的“万能接口”。之前它主要是让 AI 连接外部数据源(数据库、浏览器、文件系统),现在开始用来让 AI 连接 AI 了 想一下这个组合的可能性: -Claude Code 负责写代码 + ChatGPT 5.5 Pro 负责架构设计 -Codex 负责执行任务 + Claude

在 X 看原帖 ↗
11.1万1279621.5K
大模型 · @rasbt▲ 3.8万

开发者分享基于通义千问2.5-Coder-3B的VibeCoder初印象

基于通义千问旧基座后训练得到的VibeCoder性能表现出色

疯狂的模型!它居然用的是旧的 Qwen2.5-Coder-3B 架构,还通过他们的后训练体系取得了相当出色的性能。

我接下来几天会实际用它,看看 VibeCoder 的实际体验能不能配得上这个名字。但第一印象已经相当惊艳了!以上基于技术报告得出,

在 X 看原帖 ↗
3.8万45452352
设计工具 · @dotey▲ 3.2万

baoyu-design skill支持本地生成导出MP4动画视频

开发者实现基于Claude Design的工具可本地导出MP4动画视频

baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不过很麻烦,效果也不是很好。 在这套 Skill 基础上,我已经实现了直接把动画导出成

应用案例

有个小技巧,就是它默认的生成结果是 HTML 的,可以在 Agent 内置的浏览器中打开这个 HTML,暂停视频播放,然后标记要修改的位置,让 Agent 去在标记的位置修改,可以做一些微调。

Codex 也可以的,但是效果要差不少

应用案例

在 X 看原帖 ↗
3.2万33177216
AI开发 · @vincemask▲ 6.3万

开发者分享Claude项目配置文件CLAUDE.md编写经验

开发者分享自身编写CLAUDE.md踩坑经验,提出不应堆砌信息

我靠,原来 CLAUDE.md 还有这么多门道,以前真是白写了。 以前我一直以为「信息越多越好」,于是把项目历史、技术决策、个人偏好,甚至「写干净代码」这种空泛要求,全塞进 CLAUDE.md。 结果就是:Claude 每次都像在几千行上下文里翻垃圾堆。

在 X 看原帖 ↗
6.3万76288535
AI编码 · @dingyi▲ 18.8万

用户实测Zcode+GLM 5.2体验优于Codex

网友实测国产编码大模型组合,体验优于海外Codex

用了一天 Zcode + GLM 5.2,怎么体感比 Codex 还好很多呢。。。

一点都不卡,模型也很给力,基本没什么返工。完成一个重构任务,5 小时用量还剩很多。软件的很多设计细节做得也相当好。

有一种花 20 万买国产电车比 50 万的 BBA 还好的感觉,国产大模型变成国产新能源了!

在 X 看原帖 ↗
18.8万35559244
语音AI · @Kanojiyaaakash1▲ 18.5万

Cartesia发布Sonic 3.5 SarvamAI完成3亿美元B轮融资

语音AI领域今日迎来两件大事,博主对新模型做了实测

🚨突发消息:语音 AI 的大日子。@Cartesia 刚刚发布了 Sonic 3.5,@SarvamAI 宣布完成 3 亿美元 B 轮融资——所以我决定亲自测试两者。相同脚本,并排对比。结果相当疯狂。Sonic 在情感表达、字母数字处理上领先一个量级。

同一句话,真实的情感。其中一个朗读就像真人一样有语调起伏,另一个则全程平淡。听过 Sonic 的版本后,你再也没法无视这种差距。

一次性验证码、订单 ID、账号和电话号码——这些是语音助手每天要读上百次的内容,也是很多文本转语音容易出问题的地方。来听 Sonic 如何把每个数字都读得清晰,还能像真人一样分组停顿。

印度的真实对话不会只停留在一种语言里。印地语、泰米尔语、泰卢固语、孟加拉语、马拉地语、卡纳达语、旁遮普语 🇮🇳。Sonic 在每次语言切换中都能保持同一个声音——温度一致,不会口音重置,不会在切换语言时卡壳。这种一致性最难做到,也正是它的优势所在。

在 X 看原帖 ↗
18.5万118714443
AI开发 · @tonysimons_▲ 2.3万

Hermes Agent可使用看板适配各类工作流程

分享Hermes Agent使用技巧:看板适配全场景工作流

⚕️ Hermes 今日贴士:你可以在 Hermes Agent 的任何工作流中使用看板。

✅ 深度研究。✅ 大型写作项目。✅ 编码。✅ 只要你说得出来的都可以。

这是让你的项目保持有序,让你的代理保持专注、牢牢锁定上下文的最佳方法。

在 X 看原帖 ↗
2.3万20202366
商业 · @IBuzovskyi▲ 1.3万

AI代理HERMES可自动运营内容剪辑业务

单YouTube长视频可生成9条日更跨平台帖,单个账号月收入可达1000到4000美元

HERMES代理可以全自动运营内容剪辑生意。

从单条YouTube长视频出发,该代理可以在全平台生成每天9条 posts。

按照这套模式搭建的单个账号,每个月可以赚取1000到4000美元,也就是约合7000元到29000元人民币。

这套工作流程的第一步是,找到一位在YouTube制作长内容的创作者,内容形式可以是播客、直播或是教学内容。

在 X 看原帖 ↗
1.3万9130274
科普 · @zhodonx▲ 1.8K

什么是智能体循环,为什么它对AI工作流很重要

解释智能体循环的基础概念,举例说明如何搭建面向周报生成的智能体循环

这是AI系列内容的第六期,主题是讲解什么是智能体循环。如果你曾花数小时在Codex或Claude上来回操作,每次AI出工作流错误时都要手动修正,问题通常可以追溯到一件事:智能体循环,或者说,缺少智能体循环。

如果需要AI完成的任务是生成指定主题的每周研究报告,搭建智能体循环的操作和直接给提示词有明显区别。直接操作通常是输入提示词“调研X”,之后让智能体调用连接工具自行处理。

搭建智能体循环时,你需要先写下两个核心内容,其中第一个是目标:生成一份完整的报告。

想了解更多关于循环工程的内容,可以查看原文链接。

在 X 看原帖 ↗
1.8K2652
具身智能 · @yueya_eth▲ 4.8K

Caspius定位为具身AI的数据层,解决真实数据需求

机器人学习家务操作依赖真实环境数据,模拟器难以满足这类数据需求

Caspius(@caspius_ai)的定位是具身AI(也叫物理AI)的数据层。

大模型可以从互联网文本中学习知识,但机器人的学习逻辑完全不同。机器人要掌握做饭、清洁、洗衣、组装、搬运这类技能,依赖的是视觉、动作、手眼协调、物体触感,以及真实环境中的细微变化。

这类数据很难通过模拟器生成解决。当前行业真正稀缺的,是大量来自真实世界的第一人称任务视频,覆盖不同家庭、不同物体、不同光线和不同人的动作方式。

目前这个项目还处于非常早期的阶段,参与人数不到50人,提前参与可以获得积分,后续会有相应优势。

在 X 看原帖 ↗
4.8K2454
大语言模型 · @lidangzzz▲ 2.0万

用户实测GLM 5.2 新增支持百万长度上下文窗口

有实际购买使用GLM智谱会员的用户称,GLM 5.2已对齐Claude系列上下文能力

有实际购买GLM智谱会员并真实切换使用的用户表示,其他号称使用该服务的用户并非真实付费使用者,只有自己是真实付费使用。

GLM 5.2的最大改动是支持1M(100万token)上下文窗口,上下文处理能力终于和Claude系列对齐。

此前GLM 5.1的问题是无法适配Claude模型,使用Claude code时需要手动在设置中配置自动压缩、压缩阈值等一堆参数,如果在多个Docker(应用容器引擎)中运行,还需要额外进行手动配置。

在 X 看原帖 ↗
2.0万5017
大模型 · @bi_9527zx▲ 2.5K

无需ChatGPT Plus 5分钟接入Codex加国产大模型国内直用

无需翻墙和每月20美元的Plus会员,提供三步新手零门槛操作方法

不用每月支付20美元订阅ChatGPT Plus会员。只需5分钟就能完成Codex与国产大模型的接入,不用翻墙,国内可直接使用,新手没有操作门槛。

第一步安装Codex:从OpenAI官网下载安装包,双击按默认设置完成安装,直接跳过官方登录界面即可。

第二步安装CC Switch:这款工具适合新手,一键完成配置修改,不用手动查找修改文件,也不会因为改崩出错。

第三步获取DeepSeek密钥:在DeepSeek官网充值10元就可以使用很长时间,价格便宜,完成密钥创建即可。

在 X 看原帖 ↗
2.5K24620
AI开发 · @JinjingLiang▲ 3.0K

开发者JinjingLiang分享当前AI开发工作流配置

不同AI工具分别负责UI开发和高复杂度逻辑开发工作

开发者JinjingLiang在𝕏公开了自己当前使用AI工具进行开发的工作流程。

UI开发工作使用@grok Build内置的Composer-2.5,或是cursor-agent完成。

逻辑复杂度高的开发任务,则由Codex负责。

分享附带相关内容链接。

在 X 看原帖 ↗
3.0K26012
AI安全 · @manlikemishap▲ 1.5K

男子靠AI安全论点说服母亲投票给Bores

该男子来自纽约第12选区,称这套方法或对自己职业有利,尝试说服父亲失败

一名用户在𝕏(原推特)发文称,自己通过条理清晰的AI安全论述,说服了身为纽约第12选区选民的母亲,投票给Bores。这名用户表示,这件事可能对自己的职业发展有好处,他希望这套说服方法可以推广应用。

随后他更新了消息,这套方法没能说服自己的父亲。

在 X 看原帖 ↗
1.5K1734
谷歌 · @LyalinDotCom▲ 150

谷歌开发者发文学习Gemini托管代理API新功能

开发者LyalinDotCom在社交平台发文,称饭后回来工作正在熟悉新Gemini托管代理API

LyalinDotCom与同事共进晚餐后回到工作岗位,抽出时间进行学习。他正在尝试进一步熟悉新Gemini Managed Agent API(Gemini托管代理应用编程接口)的工作方式。他在社交平台发文向网友提问,询问是否有人已经体验过这项新功能。

在 X 看原帖 ↗
15052
开源 · @ollama▲ 12.5万

Ollama上线GLM-5.2开源大模型,支持100万token上下文

面向长周期编码与智能体任务的最强开源编码模型现已上线

🤯 GLM-5.2 已发布——专为长周期编码和智能体任务构建,现在拥有稳定支持的1M token上下文窗口。

它是目前最强的开源编码模型!现已在 Ollama 云服务上线,部署在美国最新的 @NVIDIAAI Blackwell 数据中心GPU上。

隐私政策与零[原文此处截断]

模型页面:

在 X 看原帖 ↗
12.5万1691.8K446
AI工具 · @tonysimons_▲ 2.8万

Hermes Agent日常技巧:看板适配全工作流

分享Hermes Agent使用技巧:看板可适配各类工作流

⚕️ 今日 Hermes 小贴士:你可以在 Hermes Agent 的**任何工作流**中使用看板。

✅ 深度研究 ✅ 大型写作项目 ✅ 编码。

只要你能想到的场景都能用。

这是保持项目有序,让你的代理保持专注、锁定上下文的最佳方式。我

在 X 看原帖 ↗
2.8万22242430
商业 · @IBuzovskyi▲ 1.6万

AI代理HERMES可自动运营内容剪辑业务月入千美元

HERMES代理可自动将单条YouTube长视频拆分为多平台日更内容

HERMES AGENT 可以自动运营内容剪辑业务。从单个 YouTube 视频出发,它可以在全平台每天产出 9 条帖子。

用这种方式搭建的单个页面,每月可以赚 1000 到 4000 美元。

工作流程是:1. 找到一位在 YouTube 上创作长内容的创作者(播客、直播、教育内容)

在 X 看原帖 ↗
1.6万13156321
科普 · @zhodonx▲ 2.1K

科普讲解AI智能体循环是什么及其核心作用

讲解智能体循环,说明它是解决AI工作流错误的关键

AI 系列 - 06 智能体循环到底是什么?如果你曾花好几小时来回和 Codex 或 Claude 沟通,每次都要纠正它犯下的工作流错误,问题通常都能追溯到一件事:智能体循环,或者说,缺少智能体循环。

➤ 搭建一个智能体循环实际是什么样的
假设你需要 AI 完成的工作是,针对选定主题生成每周研究报告。你不用提示“研究X”,然后让智能体靠它的连接器瞎忙活。你只需要写下两样东西:目标:生成一份报告

想了解更多关于循环工程的内容

在 X 看原帖 ↗
2.1K2704
AI开发 · @JinjingLiang▲ 3.1K

开发者分享当前AI代码开发工作流分工方案

开发者分享其利用不同AI工具分工完成开发的工作流

当前工作流:UI 工作使用@grok Build 或 cursor-agent 内的 Composer-2.5,逻辑密集型工作使用 Codex。

在 X 看原帖 ↗
3.1K26012
安全 · @sherlockdefi▲ 2.0K

Sherlock AI近月获头部DeFi等协议采用 检出高危漏洞

Sherlock AI近期表现亮眼,被头部DeFi等协议用于安全审计

Sherlock AI 最近取得了惊人的成果。过去一个月里:

- 被两个顶级协议采纳用于内部安全审计,其中包括全球最大的 DeFi 协议之一

- 在一个复杂跨链借贷项目中发现了一处已确认的高危漏洞

在你的代码仓库上运行 Sherlock AI ↓

在 X 看原帖 ↗
2.0K4455
AI工具 · @ivanfioravanti▲ 4.1K

开发者ivanfioravanti称赞Hermes Agent改变个人电脑使用体验

ivanfioravanti在𝕏发文感谢Teknium与NousResearch打造的Hermes Agent,称其大幅提升多场景使用效率

开发者ivanfioravanti在社交平台𝕏发文,感谢Teknium和NousResearch推出的工具Hermes Agent。他表示,这款工具彻底改变了自己在电脑上完成各类工作的体验。

可适用的场景覆盖学习、测试、监控、实验、编写代码等多个领域。

他对这款工具给出了极高评价。

在 X 看原帖 ↗
4.1K1574
AI安全 · @manlikemishap▲ 2.1K

AI安全论点说服母亲投票支持Bores 对父亲无效

一名网友称,自己靠AI安全论点说服纽约十二区选民母亲投票给Bores,这套方法对父亲不起作用

一名网友在社交平台𝕏发文称,自己靠详实的AI安全论点,说服了纽约十二区(NY-12)选民——也就是自己的母亲,投票给Bores。他认为这件事对自己的职业发展可能有益,希望这套说服方法能推广到更多场景。

随后他更新了消息:这套方法用在父亲身上没有成功。

在 X 看原帖 ↗
2.1K1994

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top
把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部