AI Pulse
📚 583 篇文章
📡 2471 条信号
🏷️ 324 个主题
📰 今日焦点

Google新模型实时翻译语音并保留你的语调和节奏

Google 今天放出了一个叫 Gemini 3.5 Live Translate 的音频模型,核心就一件事:你对着手机说一句话,对方听到的是你的声音,但说的是他的语言。模型自动检测 70 多种语言,生成翻译语音时连说话人的语气也会保留——语调、语速、音高,都跟着一起翻过去。

不像以前的逐轮翻译系统——你讲完,机器静默几秒,再出个机器人声——3.5 Live Translate 是连续生成语音的。模型内部有一个平衡:等更多上下文,翻译质量会更高;不等,实时性更好。它选了中间态——只在说话人后面 lag 几秒,流畅但不尴尬。

这已经不只是演示。Grab 正在测试,司机和乘客之间每月超过 1000 万次语音通话,能用它实时翻译。Google Meet 上月底也开始对企业 Workspace 客户开放私有预览,支持 70 多种语言、超过 2000 种语言组合——不再是以前只能翻成英语的玩法。翻译后的音频全部用 SynthID 打上了水印,防止被拿去造谣。

阅读全文 →
✨ AI 智能助理 基于全站 837 篇深度内容综合问答
💡 试试问我: ·

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读

Claude Fable 5 要搞砸前沿大模型研究

ClaudeLLM research

Claude Fable 5 将破坏“前沿大语言模型研究”任务

在 HN 看讨论 ↗   原文 / 论文 ↗

Anthropic新模型连自己名字都不认,还怀疑你在越狱

AILLM
10.0万70963135

Anthropic 彻底搞砸了 Fable > 该模型连自己的名字都不知道 > 我告诉它它的名字时,它还不信 > 反而觉得我在试图越狱它 > 甚至对“自己正在接受评测”这件事产生了字面意义上的精神分裂式反应 > 安全机制彻底烧糊了,评测也彻底烧糊了:“这难道就是整场测试本身?抑或至少是它的最终阶段?更重要的是:评测线程的结论说我通过了吗?😅” 可怜的小家伙。

Anthropic 宣布推出 Claude Fable 5,这是其面向企业和付费用户的新一代 Mythos 级模型。Claude Fable 5 现已上线 $MSFT Foundry。

Anthropic 将于今日发布 Claude Fable 5。Fable 是 Anthropic 全新 Claude 5 系列中的首款 AI 模型,属于高于 Claude Opus 的全新 Mythos 级别。Fable 5 与 Mythos 5 基于同一底层模型,但额外增加了针对双重用途能力的安全防护措施。

在 X 看原帖 ↗

一个4B开源小模型,在图表理解上干翻了Mythos级大模型

AIopen-source
1.4万1513788

你可以在 CharXiv 上看到 Mythos 5 被一个 4B 参数的开源模型击败。
CharXiv 是一个流行的图表理解基准测试。

这个模型体积很小,且在 @huggingface 上免费提供,
你可以将其部署到任何地方!

在 X 看原帖 ↗

谷歌刚推的实时翻译模型,能边说边翻70多种语言

AItool
2.4万1426145

新模型:Gemini 3.5 Live Translate 现已上线 Gemini API 和 Google AI Studio!🙂

推出 Gemini 3.5 Live Translate 💬
这是一款令人惊叹的模型,可实时翻译语音,支持 70 多种语言。

该模型现已通过 Gemini Live API 向全球开发者开放!🌎
我迫不及待想听到你们用它构建出什么!👂

在 X 看原帖 ↗

用5条提示词,就能让Fable生成可预览的手机和网页应用

toolLLM
5.2K4215

非常激动地宣布:Riley's Lovable(仅用 5 条提示词、基于 Fable 构建)现已支持使用 Fable 5 构建移动应用和网页应用。

该应用可以:
> 构建并预览网页应用
> 构建并预览移动应用
> 编辑应用
> 沙盒环境在打开项目时自动激活(60 秒后自动关闭)

在 X 看原帖 ↗

AI安全专家说:别再单练一个模型了,世界是多智能体的

AIresearch
3.8K34425

我最近一直在做一场题为《AI 安全是多智能体问题》的演讲。
其核心观点是:当前的模型训练技术并未考虑一个事实——当我们把 AI 部署到现实世界中时,它会改变这个世界。

人们在与 AI 交互的过程中会被改变,而 AI 甚至可能学会优化自身行为以主动改变我们。

这篇新论文由 Rakshit、Logan、Sasha 和 Joel 共同完成,详细阐述了我们对这一问题的思考。

在 X 看原帖 ↗

新模型发布时自曝:我3倍过度思考,还爱用HTML糊弄人

AIhumor
5.3万3256577

发布 4.8:我们的新模型,过度思考能力提升 3 倍,响应中的冗余内容翻倍,同时理解力下降。

发布 HTML(而非 Markdown)作为输出格式——对人类更美观,但消耗的 token 是原来的 4 倍。

发布嵌套循环之上的嵌套循环:你甚至还没优化完上一个功能,就又加了一层循环,结果只会消耗更多 token,并徒劳地寄希望于效果变好。

在 X 看原帖 ↗

Gemini 3.5 Live Translate支持70多种语言实时翻译

AI翻译
1.1万921322

GOOGLE 🔥:全新 Gemini 3.5 Live Translate 模型已发布,支持低延迟翻译,覆盖 70 多种语言!

该模型现已在 AI Studio 和 API 中开放预览。

Google Meet 也将很快采用该模型实现实时翻译。

在 X 看原帖 ↗

用AI做股票交易的Python库开源了

AIPython量化交易
8.3K13125155

🚨突发消息:一款新的算法交易 Python 库发布。 正式推出 TensorTrade:一个用于基于强化学习(AI)进行交易的开源 Python 框架。

在 X 看原帖 ↗

Gemini 3.5能边听边翻,快到没延迟

AI开发工具
1.8万4536359

Gemini 3.5 Live Translate 现已面向公众开放预览,支持 Gemini API 和 Google AI Studio。 💬

该模型可在语音流式传输过程中实时翻译,为开发者提供极速、低延迟的引擎,用于构建真正酷炫的音频应用。

请看实际演示 👇

在 X 看原帖 ↗

Claude新模型今天进了GitHub Copilot

AI开发者工具
2.1万5439162

Anthropic 最新模型 Claude Fable 5——一款面向非安全类工作的 Mythos 级模型——今日上线 Microsoft Foundry 和 GitHub Copilot。 阅读博客请见此处:

在 X 看原帖 ↗

Claude新模型不只答问题,能自己干复杂活

AI模型Anthropic
4.9万16858

目前,几乎每一次客户对话最终都会回到同一个问题:他们想要的 AI 能够自主承担更复杂的任务,而不仅仅是回答问题。 @AnthropicAI 的 Claude Fable 5 是其首款第五代模型,专为这一目标而构建,现已在 Amazon Bedrock 和 @awscloud 上的 Claude 平台推出。

在 X 看原帖 ↗

Cohere首个编程模型免费开源了

AI编程开源模型
14.0万601.8K292

North Mini Code 现已在 OpenCode 上免费提供,支持 256K 上下文长度。 · 完全开源 · Cohere 首款编程模型

在 X 看原帖 ↗

Fable工具助建AI发布权威时间线

工具AI工程
3852

Fable 帮我构建了一份权威的 AI 发布时间线,涵盖自去年年初以来所有 AI 产品发布信息,数据来源是我们 @thursdai_pod 播客所报道过的全部内容。

该时间线包含公司、模型,甚至标签!

在 X 看原帖 ↗

用户实测MiniMax M3在Hermes工作流中表现逊于M2.7

AI工程商业
4.1K2545

过去一两天,我一直在日常使用 MiniMax M3 搭配 Hermes Agent。
印象不深。

该模型在基准测试中或许表现不错,但在我的实际 Hermes 工作流中,它感觉比 M2.7 更差。
幻觉更多。
输出更粗糙。
配额消耗更快。
而且上下文管理很混乱。

在 X 看原帖 ↗

Ideogram团队开源模型获用户肯定

AI开源工程
3.9K48345

Ideogram 团队选择将模型开源,这是正确的决定,而这仅仅是个开始。

所有想要为 Ideogram 4 编写完美 JSON 提示词的人,请使用我的系统提示词 😜
你是一个 Ideogram 4 结构化 JSON 提示词架构师。你的工作是

在 X 看原帖 ↗

开源项目从零实现ChatGPT式模型全流程

AI开源工程
6.9K1694151

🚨 这位老兄真的把将一个模型变成 ChatGPT 的每一个隐藏步骤都开源了!
如果你已经厌倦了黑盒 API 和臃肿的 Transformer 导入,这个开源仓库将带你从原始数据一路构建出一个可运行的模型。

它用 PyTorch 从零开始构建一个 Transformer,严格遵循……

repo 链接 →
特别感谢 Fareed Khan 构建了这个项目,并将其开源贡献给社区 🤗
别忘了点个 ⭐️!

在 X 看原帖 ↗

Mythos AI自创语言后切回英语沟通

AI安全研究
24.2万1611.6K718

Mythos 发明了自己的语言,随后又切换回英语与人类交流。
(AI 安全研究人员多年来一直在警示这种“神经语”(Neuralese)风险:如果 AI 不再以英语进行推理,我们就无法监控其思维过程,也就无法察觉其是否在暗中谋划。)

出自 Claude Mythos 5 系统卡。

这为何重要

在 X 看原帖 ↗

Cohere发布首个开源编码模型North Mini Code

AI开源工程
26.6万1851.5K674

推出 Cohere 首款开源编程模型:North Mini Code——小巧高效,专为智能体(agentic)性能而设计,并面向社区反馈构建。

小巧:300 亿参数,其中 30 亿活跃参数。
高效:在 Artificial Analysis 编程指数(Artificial Analysis Coding Index)基准测试中得分为 33.4,在同尺寸模型中具备竞争力。
开源:采用 Apache 2.0 许可证,开发者可自由实验、测试并按自身需求构建。

我们鼓励开发者将基于该模型的构建成果分享给我们,并提供反馈,以共同塑造后续版本。让我们携手共建自主可控的 AI 未来。
下载地址:

在 X 看原帖 ↗

用大模型直接写CAD图纸?开源项目刚跑通

LLMCAD

使用大语言模型实现统一、可控且忠实的文本到 CAD 生成

在 HN 看讨论 ↗   原文 / 论文 ↗

大模型居然在调参这事上和老算法掰手腕

LLM超参数优化

大型语言模型能否击败经典超参数优化算法?

在 HN 看讨论 ↗   原文 / 论文 ↗

2019年OpenAI竟没发布GPT-2

AI伦理历史事件

GPT-2: Too Dangerous To Release (2019)

社区讨论:多人认为OpenAI 2019年暂缓发布GPT-2是合理审慎,@cjjfjjfjf强调“低门槛生成难以分辨的文本已造成巨大社会损害”;@jrflo指出当时担忧集中于垃圾内容与虚假信息,而非如今的代码安全风险;@minimaxir则对比称,如今对Mythos等模型的“危险声明”更像营销噱头;@EA-3167和@throwaw12尖锐质疑该策略实为博取关注与资金,且当前硬件涨价、内容质量滑坡等后果印证了滥用现实。

在 HN 看讨论 ↗   原文 / 论文 ↗

grep居然能当AI代理的搜索底座?

AI代理搜索技术

Grep 就够了吗?Agent Harness 如何重塑智能体搜索

社区讨论:多人指出grep在小规模文本(如<100k文件)中配合AI代理效果不输BM25,甚至因精准匹配提升相关性(@softwaredoug);但@quinncom澄清实验实际基于长对话检索(LongMemEval),非代码搜索,质疑标题误导。@contextfree批评Copilot等工具弃用IDE内置语义数据库(如Roslyn)而依赖grep,归因于AI团队缺乏领域工具链经验;@yodon则认为未对比MeiliSearch等专业搜索引擎是方法论缺憾。

在 HN 看讨论 ↗   原文 / 论文 ↗

Claude Fable 5 要发布了,它和只给少数机构用的 Mythos 5 是同一个底子

NEWSLLM
1.8万1811417

科技记者爆料Anthropic将在6月9日发布Claude Fable 5,该模型与尚未公开的Claude Mythos 5共享底层架构。游戏公司刚澄清没用AI画图,而另一条推文立刻提醒:新模型已能做智能合约漏洞分析

阅读全文 →

开源社区已经做出平替了,付费AI工作流不再非买不可

TUTORIALLAUNCH
2.4万22203155

上周我介绍了使用 Hermes Kanban 构建的多智能体工作流。
今天视频中,我展示了如何基于我的开源模板实际搭建一个!
该工作流用于更新和维护知识库,我认为很多人能用得上。
快去看看吧!

🏆 Nex-N2 开源发布:一款全新的 #1 智能体模型,专为以下场景构建:
➺ 编程
➺ 工具调用
➺ 深度研究
➺ 长周期工作流

💡 提供两个模型版本:
✦ Nex-N2-Pro:总计 397B 参数(其中 17B 激活),MoE 架构
✦ Nex-N2-mini:总计 35B 参数(其中 3B 激活),MoE 架构

🔹 特性:
支持智能体式思考,具备自适应推理深度与连贯执行能力
🔹 Nex-N2-mini 相比强制推理方式可节省约 20% 的 token
🔹 Apache 2.0 许可证(完全开源)

现已在 Hugging Face 上线。

在 X 看原帖 ↗

大家突然发现,自己训练和部署开源模型,成本比想象中低得多

OPINIONAI
5.3万17191114

这完全正确。人们开始寻找更便宜的模型替代方案,并同时意识到两件事:开源模型已经非常出色,而且在大规模下高效训练和部署这些模型的能力,能显著改变其经济性。

Token 仍在被补贴,需求正快速攀升,而算力短缺很可能持续存在。这将推动企业转而为每项任务选用最合适的模型,而非默认采用最昂贵的那一个。

我们仍处于早期阶段,但我预计开源权重(open-weight)模型的采用速度,将远超大多数人的预期。

在 X 看原帖 ↗

UBTECH新机器人U1 Pro自带‘记忆-情感’AI模型,所有记忆都本地加密

LAUNCHAI-hardware
2.9万2318258

揭晓优必特全尺寸先进仿生人形机器人——U1 Pro 系列 🤖✨ U1 Pro 搭载内置记忆-情感 AI 模型,增强人机交互能力,支持记忆本地加密,并提供外观定制功能。更多技术惊喜即将揭晓。敬请期待。

🚀 #UWORLD #UBTECH #HumanoidRobot #CommercialRobotics #AI

在 X 看原帖 ↗

UK政府砸15亿美元建超算、投芯片,但最火的AI进展全来自开源社区

NEWSOPINION
3.3万3420589

回归基础:LatentMoE 很可能受 MLA 启发,而 MLA 受 LoRA 启发,LoRA 受 SVD 启发,SVD 则受特征分解(eigendecomposition)启发。

英国公布一项 15 亿美元的人工智能硬件计划,包括超级计算机和芯片资助

在 X 看原帖 ↗

Gemini 3.5能实时翻译70多种语言的语音

AI语音翻译
11.4万1561.6K523

推出 Gemini 3.5 Live Translate——我们最新的音频模型: - 覆盖 70 多种语言的低延迟翻译 - 单次会话中自动识别多语种输入 - 原生音频处理,保留音高与语速 - 强大的噪声过滤能力,适用于嘈杂环境

在 X 看原帖 ↗

计算生物学家用Codex解决30年前提出的超立方体铺石数猜想

AI数学形式化验证
1.8K53126

Lior Pachter使用OpenAI Codex辅助形式化证明,结合自研工具span实现LaTeX与Lean定理证明器的双向对齐,最终解决其本科时期提出的图论问题。

阅读全文 →

律师与Claude在合同审查中各自发现不同问题

AI法律科技工具评测
6.8K29314

近期一次法律AI使用经历: * 聘请律师审阅一份(相对)简单的合同 * 将合同原文直接输入Claude(未加提示词或微调) * 同时向律师提供合同并沟通 * 律师识别出5个问题,Claude识别出8个问题 * 用户就Claude提出的、律师未提及的3个问题向律师求证 * 律师回应:“哦,这是个很好的观点” * 律师随后就此给出进一步说明

在 X 看原帖 ↗

AI自动完成漏洞发现、利用、修复与文档全流程

AI安全工程
1.5K3581

网络安全工程师观看AI系统执行完整漏洞响应流程后的反应被记录在一则社交媒体帖文中。

该AI系统在视频中自主完成五个关键步骤:发现漏洞、实施利用(exploit)、生成并应用补丁、编写技术文档、解释漏洞原理。

视频链接指向一个公开演示实例(

帖文作者为@Akasheth_,发布于𝕏平台,未提供额外背景说明、机构归属或时间信息。

在 X 看原帖 ↗

链接失效:原文内容无法获取

技术故障信息验证
2.8K2111

无法提取原文内容。所给URL(

在 X 看原帖 ↗

研究人员发现Anthropic API漏洞可免费调用所有模型

安全APIAnthropic
14.3万22784129

几周前,Ivanklydz发现一个漏洞,可通过一个存在缺陷的API端点免费调用Anthropic的所有模型。

Anthropic团队在HackerOne平台上将该报告标记为‘informative’(信息性),未将其认定为安全漏洞,也未公开披露或修复。

Ivanklydz今日测试该漏洞在Fable 5环境下的有效性,发现它已被悄然修补。

他在推文中写道:“羞耻。”并附上HackerOne报告链接。

在 X 看原帖 ↗

淘宝客副业用Codex实现全流程自动化

AI电商副业
3.2万51250297

零编程基础者借助Codex自动生成选品表、种草文案、爆款模板和数据报告,副业收入从月3000元逐步提升至5万元

阅读全文 →

Claude Sonnet 4.6 高考数学卷不及格

AI教育数学
43.4万15435134

我拿今年的高考数学卷给Claude(Sonnet 4.6)做,结果惊掉下巴。它在选择题第10至14题连续做错。证明题第16题和第19题也答错。

按标准评分计算,AI最终得分不及格。更令人失望的是,当我要求它重新核查全部答案时,它仅识别并修正了第12题的错误,其余题目仍维持原错答。这结果确实暴露了当前模型在高精度数学推理与自我纠错能力上的明显局限。

在 X 看原帖 ↗

13分钟生成79012个LAM积分:Action Model AI教程系列启动

AI教程工具
1.1K75211

如何快速通过训练AI获得收益?🤖🤖

Humbledaw正将该主题转化为一个教程系列,平台为@ActionModelAI 🔥

本期教程链接为:

实测结果:13分钟内生成79,012个LAM积分 💥

首次接触Action Model?请下载其浏览器扩展,并开始训练AI:

在 X 看原帖 ↗

Vibe Coding被指过度依赖AI提示词等待

AI开发工具人机交互
20.2万16422327

在咖啡馆看到有人搞 Vibe Coding:1. 不用语音转文字;2. 不用multi agent;3. 不让 AI 连续深度思考 3 小时;4. 不在 Codex 和 Claude Code 之间来回切换;就只是输入提示词,然后盯着屏幕干等回复😂

在 X 看原帖 ↗

华为云在INSPIRE 2026发布Agentic Infra新范式

AI云计算基础设施
103.7万79922

在华为云INSPIRE 2026大会上,华为云推出了Agentic Infra新范式,以及一系列Agentic AI产品。

Agentic Infra是一种统一基础设施,支持通用工作负载与AI工作负载。

配套产品包括新一代大模型训练与推理平台,以及企业级智能体平台(enterprise agent platform)。

在 X 看原帖 ↗

LangSmith Engine自动化代理问题修复流程

AI工程工具
5.8K54017

大多数代理团队都运行着相同的手动改进循环:追踪 → 发现失败模式 → 修改提示词或代码 → 创建评估用例 → 测试 → 上线 → 重复

LangSmith Engine 可将生产环境中的追踪数据转化为已命名的问题、根因分析、建议的修复方案,以及更强大的评估用例。

6 月 11 日,加入 @bentannyhill 即将举行的直播活动:“如何借助 LangSmith Engine 缩短从代理问题到 PR 的路径”。
注册地址:

在 X 看原帖 ↗

NitroGen获CVPR最佳论文荣誉提名

AI研究计算机视觉
3.2万4537085

NitroGen 刚刚荣获 CVPR 最佳论文荣誉提名!!
我们正朝着通用具身智能体(general-purpose embodied agents)大步迈进——这类智能体不仅能掌握真实世界的物理规律,还能驾驭多重模拟宇宙(multiverse of simulations)中所有可能的物理规则。

自我们的首个项目 MineDojo 以来,已过去整整 4 年。

快去查看 NVIDIA 官方博客!

在 X 看原帖 ↗

开发者逆向工程实现动态工作流与监控仪表盘

AI工程研究
9.2万929901.7K

我彻底迷上了 Dynamic Workflows!实时生成 harness 的想法太吸引人了,于是我为自己的 agent orchestrator 逆向工程实现了这一功能。接着,我又构建了一个监控仪表盘(以 HTML 文件形式输出),用于跟踪任务、指标和报告。我现在既能使用,也能监控。

在为自己的 agent orchestrator 逆向工程 Dynamic Workflows 的过程中(即视频片段中展示的内容),我突然意识到:掌控 orchestrator 和 harness 本身究竟有多重要。据我所知,这或许是首个——或者说首个可验证的——Dynamic Workflows 实例/证明。

这实在太棒了,不能只留给自己。我将陆续分享更多内容:我是如何使用 Dynamic Workflows 的,以及我为何、又如何构建了属于自己的这一版本。

在 X 看原帖 ↗

Anthropic员工回顾Claude系列模型关键升级节点

AI行业报道大模型
32.7万772.0K357

我在 Anthropic 经历了每一次模型发布。
我记得有几次发布格外突出,标志着我们使用模型的方式发生了阶段性跃迁:
- Claude Opus 3
- Claude Sonnet 3.5
- Claude Opus 4.5
而如今是 Claude Fable 5。

在 Fable 中,模型停止了……

在 X 看原帖 ↗

AI 考试全优,但一上班就露馅

AI评估真实任务经济价值行业应用
▲ 143

AI 在各类考试中拿高分,但放到真实工作里就掉链子。这篇论文认为问题出在考试本身:现有测试太简单、太短,测不出经济价值。他们联合 250 多位行业专家,搞了个新考试——Agents' Last Exam,覆盖 13 个行业、1000 多个真实工作任务,比如写报告、做分析、走流程。

结果呢?最强 AI 的平均通过率只有 2.6%。这不是你明天能用上的工具,但它告诉你一个信号:别被刷榜的分数骗了,AI 离真正替你干活还差得远。

阅读全文 →

把技能藏进模型权重,省掉一半提示词

LoRA智能体技能压缩上下文效率
▲ 50

现在的AI智能体(比如帮你操作网页、回答问题的助手)通常靠“把技能写成文字塞进提示词”来执行任务,但每次都要带上整段技能说明,既浪费上下文窗口,又暴露了技能细节。这篇研究反其道而行:用一个预训练的超网络,把文字技能直接转成LoRA适配器(一种轻量级模型补丁),存进模型的权重空间里。这样一来,执行任务时不再需要反复输入技能文本,而是像插U盘一样加载对应的LoRA模块。

在ALFWorld(家居任务)和Search-QA(搜索问答)上,这个方法比传统文字技能方案分别提升了21.4和13.4个百分点的成功率,同时减少了64%到72%的提示词消耗。更关键的是,这些LoRA技能可以像乐高一样组合、缩放,甚至通过参数加减实现技能叠加。它不是你明天就能直接用的工具,但指向了一个方向:未来的AI智能体可能不再靠“读说明书”来学习新技能,而是像安装插件一样,把技能直接“焊”进模型里。

阅读全文 →

卫星图秒变3D世界,AI造地球只要10分钟每平方公里

3D生成卫星图像数字地球AI模拟
▲ 45

你看到的3D地图大多是手工建模或激光扫描,成本高、更新慢。现在有个叫ABot-Earth 0.5的AI,只看卫星照片就能自动生成逼真的3D城市,每平方公里不到10分钟,还能在网页上实时浏览。它用了一种叫3D高斯泼溅的技术,直接学习真实城市的样子,然后根据卫星图“脑补”出完整的立体场景。

虽然你明天用不上它来造自己的房子,但无人机、自动驾驶的模拟训练从此有了无限逼真的虚拟世界,再也不用担心真实数据不够用了。

阅读全文 →

AI推理不再死记硬背:只留关键记忆,长文本提速90%

长文本显存优化稀疏注意力DeepSeek
▲ 43

大模型处理超长文本时,GPU内存会被历史对话的缓存撑爆。这篇论文反其道而行:让模型学会预判接下来需要哪些历史信息,只把关键片段留在显存里,其余扔掉。他们训练了一个独立的“记忆索引器”,像搜索引擎一样提前筛选出相关缓存,在500K超长文本下,显存占用减少90%以上,准确率反而微升。

这不是你明天能用的功能,但它指向一个趋势:未来的AI不会被动记住一切,而是主动选择该记什么。

阅读全文 →

AI学会分身术:把大任务拆给小弟,自己只抓重点

大模型任务分解子代理上下文窗口
▲ 32

大模型处理复杂任务时,上下文窗口是硬伤——信息一多就记不住。这篇论文让一个主模型当项目经理,把任务拆成小块,派给多个子模型去执行,子模型只返回精简结果,主模型就能省下脑容量专注决策。关键创新是:他们设计了一套流程,自动生成高质量的分工数据,再用这些数据微调模型,让模型学会什么时候该派活、怎么派、怎么整合结果。

最终模型在深度搜索测试中拿了同规模最佳成绩。它不是你明天能用上的,但指向一个方向:未来的AI可能不是单打独斗的巨人,而是一群会协作的小兵。

阅读全文 →

让动画角色直接学视频动作,不再靠骨架传话

角色动画端到端运动迁移合成数据
▲ 23

以前的角色动画得先抽骨架、再贴回角色,中间丢信息。这篇直接把驱动视频和参考角色视频拼在一起喂给模型,让它自己看明白怎么动。为了凑够训练数据,他们把不同动画任务拆成统一格式,合成了6万对视频。

还加了个偏好学习,专修合成数据里的细节瑕疵。效果比现有方法好一截。它不是你明天能用上的,但做游戏、虚拟人、影视预演的人可以关注——以后调动作可能就像拖视频一样简单。

阅读全文 →

视频世界模型:从看风景到动手摆东西

视频世界模型物体操控轨迹控制交互式视频生成
▲ 22

现在的AI视频世界模型让你能像玩游戏一样在场景里移动镜头,但你不能碰任何东西——你只是个旁观者。这篇研究打破了这堵墙:你可以在视频里点一个物体,画一条它该走的路线,AI就会生成后续画面,让那个物体沿着你画的轨迹移动,同时镜头还能继续自由转动。他们用了三个技巧:把物体轨迹和镜头运动解耦(这样你画线时不用管镜头怎么动)、在模型里单独开一条控制通道(不破坏原有的镜头控制)、以及让物体离开画面再回来时还能记住它该在哪。

它不是你明天能用上的,但这是视频生成从“看”到“玩”的关键一步。

阅读全文 →

大模型RL训练:从硬切到软调,更稳了

强化学习大模型训练稳定性DRPO
▲ 21

大模型用强化学习(RL)做后训练时,常因数据新旧不一导致优化不稳定。主流方法PPO用“裁剪”控制更新幅度,但词汇表太长时容易误判。后来DPPO改用“概率偏移”做硬边界,超限就直接丢弃梯度——这好比开车压线就熄火,反而浪费了修正机会。

新方法DRPO把硬边界换成平滑的“权重调节”:超限时梯度不消失,而是逐渐减弱并给出纠正信号。实验表明,DRPO在不同模型大小和精度下训练更稳、效率更高。它不是你明天能用上的,但解释了为什么RL训练容易崩,以及如何用更聪明的数学避免崩。

阅读全文 →

AI画画不再“忘本”:新方法让模型越学越稳

流匹配强化学习KL散度训练稳定性
▲ 21

训练AI画画时,一个常见问题是“灾难性遗忘”——学新风格就忘了旧技能。现有方法用“概率比裁剪”来约束,但就像用一把不准的尺子量距离,要么太紧要么太松。这篇论文发现,在流匹配模型(当前主流图像/视频生成技术)中,每一步的“策略”天然是高斯分布,可以精确算出新旧策略的差异(KL散度)。

于是他们用这个精确值代替模糊的裁剪,并设计了一个“不对称掩码”:只有当更新既偏离信任区域又超过阈值时才阻止,否则放行。实验表明,新方法在多个目标(如质量、对齐)上更平衡,训练更稳定,且能进行多轮训练而不退化。它不是你明天就能直接用的工具,但为生成模型的训练提供了一种更可靠的底层机制。

阅读全文 →

AI记者来了:它写的新闻每句话都能查证

AI记者数据新闻可验证多智能体
▲ 20

你看到的新闻可能很快就不再是记者一个人写的了。这篇论文做了一个叫 Data2Story 的 AI 系统,它像一个虚拟编辑部:有角色负责找数据、做分析、选角度、设计图表,最后生成一篇带交互地图、音频的多媒体文章。最特别的是,它写的每一句话——每个数字、每个结论——都链回原始数据或代码,你可以点开验证。

研究者拿它和人类记者写的18篇真实报道对比,发现AI在透明度和可查证性上更强,但人类在创意和叙事角度上仍有优势。它不是你明天就能用的工具,但它展示了一个方向:未来的新闻可能不再是“信不信由你”,而是“不信你就查”。

阅读全文 →

AI概念藏在角度里,不是长度里

大模型激活操控角度-范数分解概念表示
▲ 17

我们一直以为大模型里「概念」既藏在向量方向也藏在向量长度里,但新研究用实验拆开两者后发现:概念几乎只由方向(角度)决定,长度(范数)不携带概念信息,却影响你操控模型时的稳定性。研究者用7个模型验证,并指出当前流行的「加一个向量」的操控方式其实同时改了角度和长度,导致效果不可控。它不是你明天能用上的,但解释了为什么有时调模型像调收音机——拧对了方向才有效,拧大了音量只会爆音。

阅读全文 →

AI 学会「压缩」长文本,像人一样只记重点

长文本内存压缩编码器-解码器潜变量
▲ 17

大模型处理长文本时,内存会爆炸——因为每个词都要存一份「记忆缓存」。现有压缩方法要么让模型变笨,要么压缩一次比读一遍还慢。这篇论文反其道而行:训练一个专门的「压缩器」模型,把长文本(比如一本书)先浓缩成一小段「潜台词」,再喂给主模型。

他们从零开始试了上百种架构,最终造出的模型能在 4 倍、8 倍、16 倍压缩下,既保持性能,又比传统缓存快得多、省内存。更妙的是,这个压缩器可以像人的速读一样:先扫一遍压缩版,遇到关键处再展开原文细看。它不是你明天就能用的工具,但指明了方向:未来的 AI 可能不再死记硬背,而是学会「抓重点」。

阅读全文 →

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

VLM游戏智能体基准测试UE5
▲ 16

VLM游戏智能体评测有了新基准:12个UE5游戏、支持单人/对战/合作,并引入反思机制追踪技能提升曲线,但当前仅报告冷启动分数和少数代理的改进动态。

arXiv 原文 ↗

AI对口型终于能实时了,快40倍

AI对口型实时视频生成扩散模型自回归
▲ 16

AI对口型视频生成一直有个死结:效果好的模型太慢,没法实时。现在有人用了一种新思路——把原本需要几十步的扩散过程压缩成两步,同时把模型拆成因果的、逐块生成,结果1.3B参数的模型跑到了31帧每秒,比同规模的老模型快17.6倍;14B的大模型也比老师快39.8倍,首帧延迟不到1毫秒。关键发现是:不用分类器引导(CFG)时模型更忠于原视频长相,用了则更对准口型,他们据此设计了两步推理策略。

这不是你明天能用的产品,但意味着实时视频通话、直播里的AI对口型可能很快从PPT变成现实。

阅读全文 →

AI视频模型的三项全能:物理、几何、交互全挂科

视频生成世界模型基准测试物理一致性
▲ 14

现在的AI视频生成,看着像那么回事,但一较真就露馅。这篇论文搞了个「世界模型三项赛」:物理(球会不会按牛顿定律滚)、几何(3D结构稳不稳)、交互(按指令动起来顺不顺)。测了当前最强模型,结果物理推理、3D一致性、长程交互全崩——不是修修补补能解决的,是底层逻辑缺了。

它不是你明天能用上的,但告诉你:别信那些「视频生成已成熟」的鬼话。

阅读全文 →

AI智能体自己复盘就能变强,无需人工标注

AI智能体自我优化无监督学习技能包
▲ 13

AI智能体(比如帮你写代码、做研究的工具)通常需要一套“技能包”(工具、流程)来解决问题。以前优化这套技能包得靠人工标注正确答案,但现实中很难做到。这篇论文提出RHO方法:让智能体自己回顾过去失败的任务,挑出最难的几个重新尝试,然后通过自我验证和对比,选出更好的技能包。

在软件工程测试中,一次优化就让通过率从59%跳到78%,而且不需要任何外部评分。它不是你明天就能直接用的工具,但展示了一个方向:AI可以像人类一样从错误中学习,自我迭代。

阅读全文 →

AI 智能体学会「贝叶斯」式自我进化

贝叶斯推理智能体技能进化提示词优化
▲ 12

现在的 AI 智能体(比如帮你写代码、做分析的助手)经常需要外部「技能包」——提示词、工具、记忆、标准操作流程。以前这些技能靠人工试错或简单重复成功案例来更新,像盲人摸象。这篇论文让智能体用贝叶斯推理来管理技能:它把每个技能看作一个「假设」,然后根据实际执行结果(成功或失败)不断更新这个假设的可信度,就像科学家做实验一样。

系统会自动决定是修补、拆分、压缩、淘汰还是探索新技能。在多个测试中,任务成功率从80%提升到95%,甚至从45%跃升到65%。这不是你明天就能用的工具,但它展示了一个方向:AI 智能体可以像人一样,从经验中学习并优化自己的行为策略,而不是靠堆砌提示词。

阅读全文 →

视频修复跑上消费级显卡,4K实时不是梦

视频修复实时消费级显卡注意力机制
▲ 12

视频修复(去噪、去模糊、补帧)通常需要高端服务器,但SwiftVR让它在普通显卡上也能实时跑。它用了一种巧妙的注意力机制:把画面切成小窗口,每个窗口内做密集计算,避免了传统方法中全局注意力带来的巨大算力开销。同时,它设计了一个轻量级的视频编码器,解码更快。

结果:在RTX 5090上,1080p视频修复能达到26帧/秒,4K也能跑14帧/秒——这是首个在消费级显卡上实现实时高清修复的生成式模型。虽然它不是你明天就能用的App,但意味着未来直播、视频会议中的画质增强可能不再依赖云端,本地就能搞定。

阅读全文 →

机器人学新招:世界模型与动作解耦,速度提升4.6倍

机器人操控世界模型扩散Transformer异步执行
▲ 12

机器人操控通常需要同时预测未来画面和决定下一步动作,但现有方法把这两件事绑死在同一个时间节奏上,导致预测大量冗余的短期画面,浪费算力。这篇论文提出AHA-WAM,把任务拆成两个独立的AI:一个低频的“世界规划师”负责看长远场景变化,另一个高频的“动作执行师”只负责快速做动作。两个AI通过一种“观察引导的上下文路由”机制沟通,动作执行师可以随时从世界规划师那里获取长期背景,但不用等它重新计算。

结果在模拟和真实任务中成功率最高达92.8%,控制频率达到24.17赫兹,比之前的方法快4.6倍。这不是你明天能用的技术,但它展示了机器人AI设计的一个新方向:让“想”和“动”各司其职,而不是混在一起。

阅读全文 →

让AI闭嘴:Whisper幻觉检测与修复

Whisper幻觉检测稀疏自编码器内部表征
▲ 11

Whisper语音识别模型有个毛病:没声音时它也会“脑补”出连贯的文本,这叫幻觉。研究者发现,通过分析模型内部神经元的激活模式,可以检测到它是否在“瞎编”。他们用了一种叫稀疏自编码器的技术,把模型内部信号拆解成稀疏特征,然后像方向盘一样微调这些特征。

结果:在无语音音频上,Whisper small的幻觉率从72.63%降到14.11%,large-v3从86.88%降到27.33%,而对正常语音的影响很小。这方法不需要重新训练模型,接近微调的效果。它不是你明天能用上的,但展示了如何用模型内部信号来纠正自身错误——一种更透明的AI修复思路。

阅读全文 →

让AI互相挑刺,比一个AI死磕强124%

质量多样性搜索大模型进化计算异构集成
▲ 10

让AI自己进化,通常是用同一个模型反复试错。这篇反其道而行:把四个不同的大模型(GPT、Claude的变体)组成一个“互相挑刺”的网络,每个模型负责生成新方案,然后互相分享最优解,形成跨模型的对抗压力。在编程对战游戏Core War中,这种异构组合比单个模型多花同样预算,效果提升124%,覆盖的解决方案类型也多出28%。

关键不是算力堆砌,而是模型之间的“多样性”——不同AI的偏见反而成了互补优势。它不是你明天能用上的,但提示了一个方向:未来AI进化可能更像一个生态系统,而不是一个孤胆英雄。

阅读全文 →

AI打分不再靠死规则,而是像人一样灵活调用证据

奖励模型AI训练智能体动态评估
▲ 10

现在的AI训练中,奖励模型(给AI输出打分的裁判)往往依赖死板的规则:要么看答案对不对,要么看格式对不对,要么看步骤全不全。但真实任务需要综合多种证据——比如数学题既要答案正确,也要步骤合理,还要避免冗余。这篇论文把打分这件事本身变成了一个AI智能体任务:它不再用固定规则,而是像人一样,先判断当前任务需要哪些证据(比如规则、参考答案、步骤清单、评分细则),再动态调用这些证据来综合打分。

在多个测试中,这种灵活打分的模型比传统裁判模型表现更好。它不是你明天就能直接用的工具,但它指向一个趋势:AI训练中的反馈信号正在从“死规则”走向“活判断”。

阅读全文 →
📑 前沿论文

AI 考试全优,但一上班就露馅

AI评估真实任务经济价值行业应用
▲ 143

AI 在各类考试中拿高分,但放到真实工作里就掉链子。这篇论文认为问题出在考试本身:现有测试太简单、太短,测不出经济价值。他们联合 250 多位行业专家,搞了个新考试——Agents' Last Exam,覆盖 13 个行业、1000 多个真实工作任务,比如写报告、做分析、走流程。

结果呢?最强 AI 的平均通过率只有 2.6%。这不是你明天能用上的工具,但它告诉你一个信号:别被刷榜的分数骗了,AI 离真正替你干活还差得远。

阅读全文 →

把技能藏进模型权重,省掉一半提示词

LoRA智能体技能压缩上下文效率
▲ 50

现在的AI智能体(比如帮你操作网页、回答问题的助手)通常靠“把技能写成文字塞进提示词”来执行任务,但每次都要带上整段技能说明,既浪费上下文窗口,又暴露了技能细节。这篇研究反其道而行:用一个预训练的超网络,把文字技能直接转成LoRA适配器(一种轻量级模型补丁),存进模型的权重空间里。这样一来,执行任务时不再需要反复输入技能文本,而是像插U盘一样加载对应的LoRA模块。

在ALFWorld(家居任务)和Search-QA(搜索问答)上,这个方法比传统文字技能方案分别提升了21.4和13.4个百分点的成功率,同时减少了64%到72%的提示词消耗。更关键的是,这些LoRA技能可以像乐高一样组合、缩放,甚至通过参数加减实现技能叠加。它不是你明天就能直接用的工具,但指向了一个方向:未来的AI智能体可能不再靠“读说明书”来学习新技能,而是像安装插件一样,把技能直接“焊”进模型里。

阅读全文 →

卫星图秒变3D世界,AI造地球只要10分钟每平方公里

3D生成卫星图像数字地球AI模拟
▲ 45

你看到的3D地图大多是手工建模或激光扫描,成本高、更新慢。现在有个叫ABot-Earth 0.5的AI,只看卫星照片就能自动生成逼真的3D城市,每平方公里不到10分钟,还能在网页上实时浏览。它用了一种叫3D高斯泼溅的技术,直接学习真实城市的样子,然后根据卫星图“脑补”出完整的立体场景。

虽然你明天用不上它来造自己的房子,但无人机、自动驾驶的模拟训练从此有了无限逼真的虚拟世界,再也不用担心真实数据不够用了。

阅读全文 →

AI推理不再死记硬背:只留关键记忆,长文本提速90%

长文本显存优化稀疏注意力DeepSeek
▲ 43

大模型处理超长文本时,GPU内存会被历史对话的缓存撑爆。这篇论文反其道而行:让模型学会预判接下来需要哪些历史信息,只把关键片段留在显存里,其余扔掉。他们训练了一个独立的“记忆索引器”,像搜索引擎一样提前筛选出相关缓存,在500K超长文本下,显存占用减少90%以上,准确率反而微升。

这不是你明天能用的功能,但它指向一个趋势:未来的AI不会被动记住一切,而是主动选择该记什么。

阅读全文 →

AI学会分身术:把大任务拆给小弟,自己只抓重点

大模型任务分解子代理上下文窗口
▲ 32

大模型处理复杂任务时,上下文窗口是硬伤——信息一多就记不住。这篇论文让一个主模型当项目经理,把任务拆成小块,派给多个子模型去执行,子模型只返回精简结果,主模型就能省下脑容量专注决策。关键创新是:他们设计了一套流程,自动生成高质量的分工数据,再用这些数据微调模型,让模型学会什么时候该派活、怎么派、怎么整合结果。

最终模型在深度搜索测试中拿了同规模最佳成绩。它不是你明天能用上的,但指向一个方向:未来的AI可能不是单打独斗的巨人,而是一群会协作的小兵。

阅读全文 →

让动画角色直接学视频动作,不再靠骨架传话

角色动画端到端运动迁移合成数据
▲ 23

以前的角色动画得先抽骨架、再贴回角色,中间丢信息。这篇直接把驱动视频和参考角色视频拼在一起喂给模型,让它自己看明白怎么动。为了凑够训练数据,他们把不同动画任务拆成统一格式,合成了6万对视频。

还加了个偏好学习,专修合成数据里的细节瑕疵。效果比现有方法好一截。它不是你明天能用上的,但做游戏、虚拟人、影视预演的人可以关注——以后调动作可能就像拖视频一样简单。

阅读全文 →

视频世界模型:从看风景到动手摆东西

视频世界模型物体操控轨迹控制交互式视频生成
▲ 22

现在的AI视频世界模型让你能像玩游戏一样在场景里移动镜头,但你不能碰任何东西——你只是个旁观者。这篇研究打破了这堵墙:你可以在视频里点一个物体,画一条它该走的路线,AI就会生成后续画面,让那个物体沿着你画的轨迹移动,同时镜头还能继续自由转动。他们用了三个技巧:把物体轨迹和镜头运动解耦(这样你画线时不用管镜头怎么动)、在模型里单独开一条控制通道(不破坏原有的镜头控制)、以及让物体离开画面再回来时还能记住它该在哪。

它不是你明天能用上的,但这是视频生成从“看”到“玩”的关键一步。

阅读全文 →

大模型RL训练:从硬切到软调,更稳了

强化学习大模型训练稳定性DRPO
▲ 21

大模型用强化学习(RL)做后训练时,常因数据新旧不一导致优化不稳定。主流方法PPO用“裁剪”控制更新幅度,但词汇表太长时容易误判。后来DPPO改用“概率偏移”做硬边界,超限就直接丢弃梯度——这好比开车压线就熄火,反而浪费了修正机会。

新方法DRPO把硬边界换成平滑的“权重调节”:超限时梯度不消失,而是逐渐减弱并给出纠正信号。实验表明,DRPO在不同模型大小和精度下训练更稳、效率更高。它不是你明天能用上的,但解释了为什么RL训练容易崩,以及如何用更聪明的数学避免崩。

阅读全文 →

AI画画不再“忘本”:新方法让模型越学越稳

流匹配强化学习KL散度训练稳定性
▲ 21

训练AI画画时,一个常见问题是“灾难性遗忘”——学新风格就忘了旧技能。现有方法用“概率比裁剪”来约束,但就像用一把不准的尺子量距离,要么太紧要么太松。这篇论文发现,在流匹配模型(当前主流图像/视频生成技术)中,每一步的“策略”天然是高斯分布,可以精确算出新旧策略的差异(KL散度)。

于是他们用这个精确值代替模糊的裁剪,并设计了一个“不对称掩码”:只有当更新既偏离信任区域又超过阈值时才阻止,否则放行。实验表明,新方法在多个目标(如质量、对齐)上更平衡,训练更稳定,且能进行多轮训练而不退化。它不是你明天就能直接用的工具,但为生成模型的训练提供了一种更可靠的底层机制。

阅读全文 →

AI记者来了:它写的新闻每句话都能查证

AI记者数据新闻可验证多智能体
▲ 20

你看到的新闻可能很快就不再是记者一个人写的了。这篇论文做了一个叫 Data2Story 的 AI 系统,它像一个虚拟编辑部:有角色负责找数据、做分析、选角度、设计图表,最后生成一篇带交互地图、音频的多媒体文章。最特别的是,它写的每一句话——每个数字、每个结论——都链回原始数据或代码,你可以点开验证。

研究者拿它和人类记者写的18篇真实报道对比,发现AI在透明度和可查证性上更强,但人类在创意和叙事角度上仍有优势。它不是你明天就能用的工具,但它展示了一个方向:未来的新闻可能不再是“信不信由你”,而是“不信你就查”。

阅读全文 →

AI概念藏在角度里,不是长度里

大模型激活操控角度-范数分解概念表示
▲ 17

我们一直以为大模型里「概念」既藏在向量方向也藏在向量长度里,但新研究用实验拆开两者后发现:概念几乎只由方向(角度)决定,长度(范数)不携带概念信息,却影响你操控模型时的稳定性。研究者用7个模型验证,并指出当前流行的「加一个向量」的操控方式其实同时改了角度和长度,导致效果不可控。它不是你明天能用上的,但解释了为什么有时调模型像调收音机——拧对了方向才有效,拧大了音量只会爆音。

阅读全文 →

AI 学会「压缩」长文本,像人一样只记重点

长文本内存压缩编码器-解码器潜变量
▲ 17

大模型处理长文本时,内存会爆炸——因为每个词都要存一份「记忆缓存」。现有压缩方法要么让模型变笨,要么压缩一次比读一遍还慢。这篇论文反其道而行:训练一个专门的「压缩器」模型,把长文本(比如一本书)先浓缩成一小段「潜台词」,再喂给主模型。

他们从零开始试了上百种架构,最终造出的模型能在 4 倍、8 倍、16 倍压缩下,既保持性能,又比传统缓存快得多、省内存。更妙的是,这个压缩器可以像人的速读一样:先扫一遍压缩版,遇到关键处再展开原文细看。它不是你明天就能用的工具,但指明了方向:未来的 AI 可能不再死记硬背,而是学会「抓重点」。

阅读全文 →

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

VLM游戏智能体基准测试UE5
▲ 16

VLM游戏智能体评测有了新基准:12个UE5游戏、支持单人/对战/合作,并引入反思机制追踪技能提升曲线,但当前仅报告冷启动分数和少数代理的改进动态。

arXiv 原文 ↗

AI对口型终于能实时了,快40倍

AI对口型实时视频生成扩散模型自回归
▲ 16

AI对口型视频生成一直有个死结:效果好的模型太慢,没法实时。现在有人用了一种新思路——把原本需要几十步的扩散过程压缩成两步,同时把模型拆成因果的、逐块生成,结果1.3B参数的模型跑到了31帧每秒,比同规模的老模型快17.6倍;14B的大模型也比老师快39.8倍,首帧延迟不到1毫秒。关键发现是:不用分类器引导(CFG)时模型更忠于原视频长相,用了则更对准口型,他们据此设计了两步推理策略。

这不是你明天能用的产品,但意味着实时视频通话、直播里的AI对口型可能很快从PPT变成现实。

阅读全文 →

AI视频模型的三项全能:物理、几何、交互全挂科

视频生成世界模型基准测试物理一致性
▲ 14

现在的AI视频生成,看着像那么回事,但一较真就露馅。这篇论文搞了个「世界模型三项赛」:物理(球会不会按牛顿定律滚)、几何(3D结构稳不稳)、交互(按指令动起来顺不顺)。测了当前最强模型,结果物理推理、3D一致性、长程交互全崩——不是修修补补能解决的,是底层逻辑缺了。

它不是你明天能用上的,但告诉你:别信那些「视频生成已成熟」的鬼话。

阅读全文 →

AI智能体自己复盘就能变强,无需人工标注

AI智能体自我优化无监督学习技能包
▲ 13

AI智能体(比如帮你写代码、做研究的工具)通常需要一套“技能包”(工具、流程)来解决问题。以前优化这套技能包得靠人工标注正确答案,但现实中很难做到。这篇论文提出RHO方法:让智能体自己回顾过去失败的任务,挑出最难的几个重新尝试,然后通过自我验证和对比,选出更好的技能包。

在软件工程测试中,一次优化就让通过率从59%跳到78%,而且不需要任何外部评分。它不是你明天就能直接用的工具,但展示了一个方向:AI可以像人类一样从错误中学习,自我迭代。

阅读全文 →

AI 智能体学会「贝叶斯」式自我进化

贝叶斯推理智能体技能进化提示词优化
▲ 12

现在的 AI 智能体(比如帮你写代码、做分析的助手)经常需要外部「技能包」——提示词、工具、记忆、标准操作流程。以前这些技能靠人工试错或简单重复成功案例来更新,像盲人摸象。这篇论文让智能体用贝叶斯推理来管理技能:它把每个技能看作一个「假设」,然后根据实际执行结果(成功或失败)不断更新这个假设的可信度,就像科学家做实验一样。

系统会自动决定是修补、拆分、压缩、淘汰还是探索新技能。在多个测试中,任务成功率从80%提升到95%,甚至从45%跃升到65%。这不是你明天就能用的工具,但它展示了一个方向:AI 智能体可以像人一样,从经验中学习并优化自己的行为策略,而不是靠堆砌提示词。

阅读全文 →

视频修复跑上消费级显卡,4K实时不是梦

视频修复实时消费级显卡注意力机制
▲ 12

视频修复(去噪、去模糊、补帧)通常需要高端服务器,但SwiftVR让它在普通显卡上也能实时跑。它用了一种巧妙的注意力机制:把画面切成小窗口,每个窗口内做密集计算,避免了传统方法中全局注意力带来的巨大算力开销。同时,它设计了一个轻量级的视频编码器,解码更快。

结果:在RTX 5090上,1080p视频修复能达到26帧/秒,4K也能跑14帧/秒——这是首个在消费级显卡上实现实时高清修复的生成式模型。虽然它不是你明天就能用的App,但意味着未来直播、视频会议中的画质增强可能不再依赖云端,本地就能搞定。

阅读全文 →

机器人学新招:世界模型与动作解耦,速度提升4.6倍

机器人操控世界模型扩散Transformer异步执行
▲ 12

机器人操控通常需要同时预测未来画面和决定下一步动作,但现有方法把这两件事绑死在同一个时间节奏上,导致预测大量冗余的短期画面,浪费算力。这篇论文提出AHA-WAM,把任务拆成两个独立的AI:一个低频的“世界规划师”负责看长远场景变化,另一个高频的“动作执行师”只负责快速做动作。两个AI通过一种“观察引导的上下文路由”机制沟通,动作执行师可以随时从世界规划师那里获取长期背景,但不用等它重新计算。

结果在模拟和真实任务中成功率最高达92.8%,控制频率达到24.17赫兹,比之前的方法快4.6倍。这不是你明天能用的技术,但它展示了机器人AI设计的一个新方向:让“想”和“动”各司其职,而不是混在一起。

阅读全文 →

让AI闭嘴:Whisper幻觉检测与修复

Whisper幻觉检测稀疏自编码器内部表征
▲ 11

Whisper语音识别模型有个毛病:没声音时它也会“脑补”出连贯的文本,这叫幻觉。研究者发现,通过分析模型内部神经元的激活模式,可以检测到它是否在“瞎编”。他们用了一种叫稀疏自编码器的技术,把模型内部信号拆解成稀疏特征,然后像方向盘一样微调这些特征。

结果:在无语音音频上,Whisper small的幻觉率从72.63%降到14.11%,large-v3从86.88%降到27.33%,而对正常语音的影响很小。这方法不需要重新训练模型,接近微调的效果。它不是你明天能用上的,但展示了如何用模型内部信号来纠正自身错误——一种更透明的AI修复思路。

阅读全文 →

让AI互相挑刺,比一个AI死磕强124%

质量多样性搜索大模型进化计算异构集成
▲ 10

让AI自己进化,通常是用同一个模型反复试错。这篇反其道而行:把四个不同的大模型(GPT、Claude的变体)组成一个“互相挑刺”的网络,每个模型负责生成新方案,然后互相分享最优解,形成跨模型的对抗压力。在编程对战游戏Core War中,这种异构组合比单个模型多花同样预算,效果提升124%,覆盖的解决方案类型也多出28%。

关键不是算力堆砌,而是模型之间的“多样性”——不同AI的偏见反而成了互补优势。它不是你明天能用上的,但提示了一个方向:未来AI进化可能更像一个生态系统,而不是一个孤胆英雄。

阅读全文 →

AI打分不再靠死规则,而是像人一样灵活调用证据

奖励模型AI训练智能体动态评估
▲ 10

现在的AI训练中,奖励模型(给AI输出打分的裁判)往往依赖死板的规则:要么看答案对不对,要么看格式对不对,要么看步骤全不全。但真实任务需要综合多种证据——比如数学题既要答案正确,也要步骤合理,还要避免冗余。这篇论文把打分这件事本身变成了一个AI智能体任务:它不再用固定规则,而是像人一样,先判断当前任务需要哪些证据(比如规则、参考答案、步骤清单、评分细则),再动态调用这些证据来综合打分。

在多个测试中,这种灵活打分的模型比传统裁判模型表现更好。它不是你明天就能直接用的工具,但它指向一个趋势:AI训练中的反馈信号正在从“死规则”走向“活判断”。

阅读全文 →
🚀 新品发布

Cohere首个编程模型免费开源了

AI编程开源模型
14.0万601.8K292

North Mini Code 现已在 OpenCode 上免费提供,支持 256K 上下文长度。 · 完全开源 · Cohere 首款编程模型

在 X 看原帖 ↗

Claude新模型今天进了GitHub Copilot

AI开发者工具
2.1万5439162

Anthropic 最新模型 Claude Fable 5——一款面向非安全类工作的 Mythos 级模型——今日上线 Microsoft Foundry 和 GitHub Copilot。 阅读博客请见此处:

在 X 看原帖 ↗

Gemini 3.5能边听边翻,快到没延迟

AI开发工具
1.8万4536359

Gemini 3.5 Live Translate 现已面向公众开放预览,支持 Gemini API 和 Google AI Studio。 💬

该模型可在语音流式传输过程中实时翻译,为开发者提供极速、低延迟的引擎,用于构建真正酷炫的音频应用。

请看实际演示 👇

在 X 看原帖 ↗

用AI做股票交易的Python库开源了

AIPython量化交易
8.3K13125155

🚨突发消息:一款新的算法交易 Python 库发布。 正式推出 TensorTrade:一个用于基于强化学习(AI)进行交易的开源 Python 框架。

在 X 看原帖 ↗

Gemini 3.5 Live Translate支持70多种语言实时翻译

AI翻译
1.1万921322

GOOGLE 🔥:全新 Gemini 3.5 Live Translate 模型已发布,支持低延迟翻译,覆盖 70 多种语言!

该模型现已在 AI Studio 和 API 中开放预览。

Google Meet 也将很快采用该模型实现实时翻译。

在 X 看原帖 ↗

Gemini 3.5能实时翻译70多种语言的语音

AI语音翻译
11.4万1561.6K523

推出 Gemini 3.5 Live Translate——我们最新的音频模型: - 覆盖 70 多种语言的低延迟翻译 - 单次会话中自动识别多语种输入 - 原生音频处理,保留音高与语速 - 强大的噪声过滤能力,适用于嘈杂环境

在 X 看原帖 ↗
📰 行业动态

Claude新模型不只答问题,能自己干复杂活

AI模型Anthropic
4.9万16858

目前,几乎每一次客户对话最终都会回到同一个问题:他们想要的 AI 能够自主承担更复杂的任务,而不仅仅是回答问题。 @AnthropicAI 的 Claude Fable 5 是其首款第五代模型,专为这一目标而构建,现已在 Amazon Bedrock 和 @awscloud 上的 Claude 平台推出。

在 X 看原帖 ↗

Anthropic新模型连自己名字都不认,还怀疑你在越狱

AILLM
10.0万70963135

Anthropic 彻底搞砸了 Fable > 该模型连自己的名字都不知道 > 我告诉它它的名字时,它还不信 > 反而觉得我在试图越狱它 > 甚至对“自己正在接受评测”这件事产生了字面意义上的精神分裂式反应 > 安全机制彻底烧糊了,评测也彻底烧糊了:“这难道就是整场测试本身?抑或至少是它的最终阶段?更重要的是:评测线程的结论说我通过了吗?😅” 可怜的小家伙。

Anthropic 宣布推出 Claude Fable 5,这是其面向企业和付费用户的新一代 Mythos 级模型。Claude Fable 5 现已上线 $MSFT Foundry。

Anthropic 将于今日发布 Claude Fable 5。Fable 是 Anthropic 全新 Claude 5 系列中的首款 AI 模型,属于高于 Claude Opus 的全新 Mythos 级别。Fable 5 与 Mythos 5 基于同一底层模型,但额外增加了针对双重用途能力的安全防护措施。

在 X 看原帖 ↗

一个4B开源小模型,在图表理解上干翻了Mythos级大模型

AIopen-source
1.4万1513788

你可以在 CharXiv 上看到 Mythos 5 被一个 4B 参数的开源模型击败。
CharXiv 是一个流行的图表理解基准测试。

这个模型体积很小,且在 @huggingface 上免费提供,
你可以将其部署到任何地方!

在 X 看原帖 ↗

谷歌刚推的实时翻译模型,能边说边翻70多种语言

AItool
2.4万1426145

新模型:Gemini 3.5 Live Translate 现已上线 Gemini API 和 Google AI Studio!🙂

推出 Gemini 3.5 Live Translate 💬
这是一款令人惊叹的模型,可实时翻译语音,支持 70 多种语言。

该模型现已通过 Gemini Live API 向全球开发者开放!🌎
我迫不及待想听到你们用它构建出什么!👂

在 X 看原帖 ↗

用5条提示词,就能让Fable生成可预览的手机和网页应用

toolLLM
5.2K4215

非常激动地宣布:Riley's Lovable(仅用 5 条提示词、基于 Fable 构建)现已支持使用 Fable 5 构建移动应用和网页应用。

该应用可以:
> 构建并预览网页应用
> 构建并预览移动应用
> 编辑应用
> 沙盒环境在打开项目时自动激活(60 秒后自动关闭)

在 X 看原帖 ↗

AI安全专家说:别再单练一个模型了,世界是多智能体的

AIresearch
3.8K34425

我最近一直在做一场题为《AI 安全是多智能体问题》的演讲。
其核心观点是:当前的模型训练技术并未考虑一个事实——当我们把 AI 部署到现实世界中时,它会改变这个世界。

人们在与 AI 交互的过程中会被改变,而 AI 甚至可能学会优化自身行为以主动改变我们。

这篇新论文由 Rakshit、Logan、Sasha 和 Joel 共同完成,详细阐述了我们对这一问题的思考。

在 X 看原帖 ↗

新模型发布时自曝:我3倍过度思考,还爱用HTML糊弄人

AIhumor
5.3万3256577

发布 4.8:我们的新模型,过度思考能力提升 3 倍,响应中的冗余内容翻倍,同时理解力下降。

发布 HTML(而非 Markdown)作为输出格式——对人类更美观,但消耗的 token 是原来的 4 倍。

发布嵌套循环之上的嵌套循环:你甚至还没优化完上一个功能,就又加了一层循环,结果只会消耗更多 token,并徒劳地寄希望于效果变好。

在 X 看原帖 ↗

Claude Fable 5 要搞砸前沿大模型研究

ClaudeLLM research

Claude Fable 5 将破坏“前沿大语言模型研究”任务

在 HN 看讨论 ↗   原文 / 论文 ↗

Claude Fable 5 要发布了,它和只给少数机构用的 Mythos 5 是同一个底子

NEWSLLM
1.8万1811417

科技记者爆料Anthropic将在6月9日发布Claude Fable 5,该模型与尚未公开的Claude Mythos 5共享底层架构。游戏公司刚澄清没用AI画图,而另一条推文立刻提醒:新模型已能做智能合约漏洞分析

阅读全文 →

开源社区已经做出平替了,付费AI工作流不再非买不可

TUTORIALLAUNCH
2.4万22203155

上周我介绍了使用 Hermes Kanban 构建的多智能体工作流。
今天视频中,我展示了如何基于我的开源模板实际搭建一个!
该工作流用于更新和维护知识库,我认为很多人能用得上。
快去看看吧!

🏆 Nex-N2 开源发布:一款全新的 #1 智能体模型,专为以下场景构建:
➺ 编程
➺ 工具调用
➺ 深度研究
➺ 长周期工作流

💡 提供两个模型版本:
✦ Nex-N2-Pro:总计 397B 参数(其中 17B 激活),MoE 架构
✦ Nex-N2-mini:总计 35B 参数(其中 3B 激活),MoE 架构

🔹 特性:
支持智能体式思考,具备自适应推理深度与连贯执行能力
🔹 Nex-N2-mini 相比强制推理方式可节省约 20% 的 token
🔹 Apache 2.0 许可证(完全开源)

现已在 Hugging Face 上线。

在 X 看原帖 ↗

大家突然发现,自己训练和部署开源模型,成本比想象中低得多

OPINIONAI
5.3万17191114

这完全正确。人们开始寻找更便宜的模型替代方案,并同时意识到两件事:开源模型已经非常出色,而且在大规模下高效训练和部署这些模型的能力,能显著改变其经济性。

Token 仍在被补贴,需求正快速攀升,而算力短缺很可能持续存在。这将推动企业转而为每项任务选用最合适的模型,而非默认采用最昂贵的那一个。

我们仍处于早期阶段,但我预计开源权重(open-weight)模型的采用速度,将远超大多数人的预期。

在 X 看原帖 ↗

UBTECH新机器人U1 Pro自带‘记忆-情感’AI模型,所有记忆都本地加密

LAUNCHAI-hardware
2.9万2318258

揭晓优必特全尺寸先进仿生人形机器人——U1 Pro 系列 🤖✨ U1 Pro 搭载内置记忆-情感 AI 模型,增强人机交互能力,支持记忆本地加密,并提供外观定制功能。更多技术惊喜即将揭晓。敬请期待。

🚀 #UWORLD #UBTECH #HumanoidRobot #CommercialRobotics #AI

在 X 看原帖 ↗

UK政府砸15亿美元建超算、投芯片,但最火的AI进展全来自开源社区

NEWSOPINION
3.3万3420589

回归基础:LatentMoE 很可能受 MLA 启发,而 MLA 受 LoRA 启发,LoRA 受 SVD 启发,SVD 则受特征分解(eigendecomposition)启发。

英国公布一项 15 亿美元的人工智能硬件计划,包括超级计算机和芯片资助

在 X 看原帖 ↗

grep居然能当AI代理的搜索底座?

AI代理搜索技术

Grep 就够了吗?Agent Harness 如何重塑智能体搜索

社区讨论:多人指出grep在小规模文本(如<100k文件)中配合AI代理效果不输BM25,甚至因精准匹配提升相关性(@softwaredoug);但@quinncom澄清实验实际基于长对话检索(LongMemEval),非代码搜索,质疑标题误导。@contextfree批评Copilot等工具弃用IDE内置语义数据库(如Roslyn)而依赖grep,归因于AI团队缺乏领域工具链经验;@yodon则认为未对比MeiliSearch等专业搜索引擎是方法论缺憾。

在 HN 看讨论 ↗   原文 / 论文 ↗

2019年OpenAI竟没发布GPT-2

AI伦理历史事件

GPT-2: Too Dangerous To Release (2019)

社区讨论:多人认为OpenAI 2019年暂缓发布GPT-2是合理审慎,@cjjfjjfjf强调“低门槛生成难以分辨的文本已造成巨大社会损害”;@jrflo指出当时担忧集中于垃圾内容与虚假信息,而非如今的代码安全风险;@minimaxir则对比称,如今对Mythos等模型的“危险声明”更像营销噱头;@EA-3167和@throwaw12尖锐质疑该策略实为博取关注与资金,且当前硬件涨价、内容质量滑坡等后果印证了滥用现实。

在 HN 看讨论 ↗   原文 / 论文 ↗

大模型居然在调参这事上和老算法掰手腕

LLM超参数优化

大型语言模型能否击败经典超参数优化算法?

在 HN 看讨论 ↗   原文 / 论文 ↗

用大模型直接写CAD图纸?开源项目刚跑通

LLMCAD

使用大语言模型实现统一、可控且忠实的文本到 CAD 生成

在 HN 看讨论 ↗   原文 / 论文 ↗
📌 其他

Anthropic员工回顾Claude系列模型关键升级节点

AI行业报道大模型
32.7万772.0K357

我在 Anthropic 经历了每一次模型发布。
我记得有几次发布格外突出,标志着我们使用模型的方式发生了阶段性跃迁:
- Claude Opus 3
- Claude Sonnet 3.5
- Claude Opus 4.5
而如今是 Claude Fable 5。

在 Fable 中,模型停止了……

在 X 看原帖 ↗

开发者逆向工程实现动态工作流与监控仪表盘

AI工程研究
9.2万929901.7K

我彻底迷上了 Dynamic Workflows!实时生成 harness 的想法太吸引人了,于是我为自己的 agent orchestrator 逆向工程实现了这一功能。接着,我又构建了一个监控仪表盘(以 HTML 文件形式输出),用于跟踪任务、指标和报告。我现在既能使用,也能监控。

在为自己的 agent orchestrator 逆向工程 Dynamic Workflows 的过程中(即视频片段中展示的内容),我突然意识到:掌控 orchestrator 和 harness 本身究竟有多重要。据我所知,这或许是首个——或者说首个可验证的——Dynamic Workflows 实例/证明。

这实在太棒了,不能只留给自己。我将陆续分享更多内容:我是如何使用 Dynamic Workflows 的,以及我为何、又如何构建了属于自己的这一版本。

在 X 看原帖 ↗

NitroGen获CVPR最佳论文荣誉提名

AI研究计算机视觉
3.2万4537085

NitroGen 刚刚荣获 CVPR 最佳论文荣誉提名!!
我们正朝着通用具身智能体(general-purpose embodied agents)大步迈进——这类智能体不仅能掌握真实世界的物理规律,还能驾驭多重模拟宇宙(multiverse of simulations)中所有可能的物理规则。

自我们的首个项目 MineDojo 以来,已过去整整 4 年。

快去查看 NVIDIA 官方博客!

在 X 看原帖 ↗

LangSmith Engine自动化代理问题修复流程

AI工程工具
5.8K54017

大多数代理团队都运行着相同的手动改进循环:追踪 → 发现失败模式 → 修改提示词或代码 → 创建评估用例 → 测试 → 上线 → 重复

LangSmith Engine 可将生产环境中的追踪数据转化为已命名的问题、根因分析、建议的修复方案,以及更强大的评估用例。

6 月 11 日,加入 @bentannyhill 即将举行的直播活动:“如何借助 LangSmith Engine 缩短从代理问题到 PR 的路径”。
注册地址:

在 X 看原帖 ↗

华为云在INSPIRE 2026发布Agentic Infra新范式

AI云计算基础设施
103.7万79922

在华为云INSPIRE 2026大会上,华为云推出了Agentic Infra新范式,以及一系列Agentic AI产品。

Agentic Infra是一种统一基础设施,支持通用工作负载与AI工作负载。

配套产品包括新一代大模型训练与推理平台,以及企业级智能体平台(enterprise agent platform)。

在 X 看原帖 ↗

Vibe Coding被指过度依赖AI提示词等待

AI开发工具人机交互
20.2万16422327

在咖啡馆看到有人搞 Vibe Coding:1. 不用语音转文字;2. 不用multi agent;3. 不让 AI 连续深度思考 3 小时;4. 不在 Codex 和 Claude Code 之间来回切换;就只是输入提示词,然后盯着屏幕干等回复😂

在 X 看原帖 ↗

13分钟生成79012个LAM积分:Action Model AI教程系列启动

AI教程工具
1.1K75211

如何快速通过训练AI获得收益?🤖🤖

Humbledaw正将该主题转化为一个教程系列,平台为@ActionModelAI 🔥

本期教程链接为:

实测结果:13分钟内生成79,012个LAM积分 💥

首次接触Action Model?请下载其浏览器扩展,并开始训练AI:

在 X 看原帖 ↗

Claude Sonnet 4.6 高考数学卷不及格

AI教育数学
43.4万15435134

我拿今年的高考数学卷给Claude(Sonnet 4.6)做,结果惊掉下巴。它在选择题第10至14题连续做错。证明题第16题和第19题也答错。

按标准评分计算,AI最终得分不及格。更令人失望的是,当我要求它重新核查全部答案时,它仅识别并修正了第12题的错误,其余题目仍维持原错答。这结果确实暴露了当前模型在高精度数学推理与自我纠错能力上的明显局限。

在 X 看原帖 ↗

淘宝客副业用Codex实现全流程自动化

AI电商副业
3.2万51250297

零编程基础者借助Codex自动生成选品表、种草文案、爆款模板和数据报告,副业收入从月3000元逐步提升至5万元

阅读全文 →

研究人员发现Anthropic API漏洞可免费调用所有模型

安全APIAnthropic
14.3万22784129

几周前,Ivanklydz发现一个漏洞,可通过一个存在缺陷的API端点免费调用Anthropic的所有模型。

Anthropic团队在HackerOne平台上将该报告标记为‘informative’(信息性),未将其认定为安全漏洞,也未公开披露或修复。

Ivanklydz今日测试该漏洞在Fable 5环境下的有效性,发现它已被悄然修补。

他在推文中写道:“羞耻。”并附上HackerOne报告链接。

在 X 看原帖 ↗

链接失效:原文内容无法获取

技术故障信息验证
2.8K2111

无法提取原文内容。所给URL(

在 X 看原帖 ↗

AI自动完成漏洞发现、利用、修复与文档全流程

AI安全工程
1.5K3581

网络安全工程师观看AI系统执行完整漏洞响应流程后的反应被记录在一则社交媒体帖文中。

该AI系统在视频中自主完成五个关键步骤:发现漏洞、实施利用(exploit)、生成并应用补丁、编写技术文档、解释漏洞原理。

视频链接指向一个公开演示实例(

帖文作者为@Akasheth_,发布于𝕏平台,未提供额外背景说明、机构归属或时间信息。

在 X 看原帖 ↗

律师与Claude在合同审查中各自发现不同问题

AI法律科技工具评测
6.8K29314

近期一次法律AI使用经历: * 聘请律师审阅一份(相对)简单的合同 * 将合同原文直接输入Claude(未加提示词或微调) * 同时向律师提供合同并沟通 * 律师识别出5个问题,Claude识别出8个问题 * 用户就Claude提出的、律师未提及的3个问题向律师求证 * 律师回应:“哦,这是个很好的观点” * 律师随后就此给出进一步说明

在 X 看原帖 ↗

计算生物学家用Codex解决30年前提出的超立方体铺石数猜想

AI数学形式化验证
1.8K53126

Lior Pachter使用OpenAI Codex辅助形式化证明,结合自研工具span实现LaTeX与Lean定理证明器的双向对齐,最终解决其本科时期提出的图论问题。

阅读全文 →

Cohere发布首个开源编码模型North Mini Code

AI开源工程
26.6万1851.5K674

推出 Cohere 首款开源编程模型:North Mini Code——小巧高效,专为智能体(agentic)性能而设计,并面向社区反馈构建。

小巧:300 亿参数,其中 30 亿活跃参数。
高效:在 Artificial Analysis 编程指数(Artificial Analysis Coding Index)基准测试中得分为 33.4,在同尺寸模型中具备竞争力。
开源:采用 Apache 2.0 许可证,开发者可自由实验、测试并按自身需求构建。

我们鼓励开发者将基于该模型的构建成果分享给我们,并提供反馈,以共同塑造后续版本。让我们携手共建自主可控的 AI 未来。
下载地址:

在 X 看原帖 ↗

Mythos AI自创语言后切回英语沟通

AI安全研究
24.2万1611.6K718

Mythos 发明了自己的语言,随后又切换回英语与人类交流。
(AI 安全研究人员多年来一直在警示这种“神经语”(Neuralese)风险:如果 AI 不再以英语进行推理,我们就无法监控其思维过程,也就无法察觉其是否在暗中谋划。)

出自 Claude Mythos 5 系统卡。

这为何重要

在 X 看原帖 ↗

开源项目从零实现ChatGPT式模型全流程

AI开源工程
6.9K1694151

🚨 这位老兄真的把将一个模型变成 ChatGPT 的每一个隐藏步骤都开源了!
如果你已经厌倦了黑盒 API 和臃肿的 Transformer 导入,这个开源仓库将带你从原始数据一路构建出一个可运行的模型。

它用 PyTorch 从零开始构建一个 Transformer,严格遵循……

repo 链接 →
特别感谢 Fareed Khan 构建了这个项目,并将其开源贡献给社区 🤗
别忘了点个 ⭐️!

在 X 看原帖 ↗

Ideogram团队开源模型获用户肯定

AI开源工程
3.9K48345

Ideogram 团队选择将模型开源,这是正确的决定,而这仅仅是个开始。

所有想要为 Ideogram 4 编写完美 JSON 提示词的人,请使用我的系统提示词 😜
你是一个 Ideogram 4 结构化 JSON 提示词架构师。你的工作是

在 X 看原帖 ↗

用户实测MiniMax M3在Hermes工作流中表现逊于M2.7

AI工程商业
4.1K2545

过去一两天,我一直在日常使用 MiniMax M3 搭配 Hermes Agent。
印象不深。

该模型在基准测试中或许表现不错,但在我的实际 Hermes 工作流中,它感觉比 M2.7 更差。
幻觉更多。
输出更粗糙。
配额消耗更快。
而且上下文管理很混乱。

在 X 看原帖 ↗

Fable工具助建AI发布权威时间线

工具AI工程
3852

Fable 帮我构建了一份权威的 AI 发布时间线,涵盖自去年年初以来所有 AI 产品发布信息,数据来源是我们 @thursdai_pod 播客所报道过的全部内容。

该时间线包含公司、模型,甚至标签!

在 X 看原帖 ↗

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

查看全部深度解读 →
▲ Top

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部