研究 — AI Pulse · 主题知识库

📡

结构化输出不一定好，AI代理的输出可能越来越同质化

𝕏2026 年 7 月 23 日

📡

大语言模型居然会被措辞骗，语气不对就信谣言

𝕏2026 年 7 月 22 日

📡

OpenAI与Apollo合作发布奖赏寻求研究及测量方法

𝕏2026 年 7 月 22 日

📖

AI辅助数学研究：能力、局限与人类角色的再思考

AI数学2026 年 7 月 21 日

📡

新方法让AI更新前先自己检查有没有进步

𝕏2026 年 7 月 20 日

📡

Tripo AI要在SIGGRAPH分享3D生成AI最新研究

𝕏2026 年 7 月 19 日

📖

过度训练：通往人类级人工智能的路径

AI大语言模型2026 年 7 月 18 日

📡

现在做AI代理都搞错优化方向了？

𝕏2026 年 7 月 18 日

📡

你听说吗？现在开源AI只比闭源落后4到7个月了

𝕏2026 年 7 月 18 日

📡

两家大模型的专家激活设计，都出乎研究者预料

𝕏2026 年 7 月 17 日

📡

AI现在能读合同，还能预测会引发纠纷的歧义

𝕏2026 年 7 月 17 日

📡

刚训练完安全提升的GPT-Red，能帮AI自己找漏洞

𝕏2026 年 7 月 16 日

📡

Anthropic发布新研究发现自主智能体四类失当行为

𝕏2026 年 7 月 16 日

📡

AI研究的下一个关键临界点是RSI？

𝕏2026 年 7 月 15 日

📡

新数据集WANDR来自用户真实日常研究任务

𝕏2026 年 7 月 15 日

📡

Anthropic发布Claude价值观跨模型跨语言研究新成果

𝕏2026 年 7 月 14 日

📡

悉尼大学改了模型，让水下也能做立体匹配

𝕏2026 年 7 月 13 日

📡

研究员聊起两种AI模型架构，现在很火MoE

𝕏2026 年 7 月 12 日

📡

研究显示：GPT-4帮好创业者赚更多，差创业者亏更多

𝕏2026 年 7 月 11 日

📡

谷歌DeepMind播客探讨大模型可解释性研究

𝕏2026 年 7 月 11 日

📡

OpenAI说常用的coding测试题坏了三成

𝕏2026 年 7 月 9 日

📡

你听说吗？强化学习做AI还远没到瓶颈

𝕏2026 年 7 月 9 日

📡

上海大学提出给AI装人类一样的记忆，这想法太炸了

𝕏2026 年 7 月 9 日

📡

OpenAI审计发现热门AI编码基准SWE-Bench Pro失效

𝕏2026 年 7 月 9 日

📡

OpenAI审计发现热门AI编码基准SWE-Bench Pro失效

𝕏2026 年 7 月 9 日

📡

多人对话AI训练出新方法，效果已经被反复验证

𝕏2026 年 7 月 8 日

📡

单AI模型就能控制人形机器人全身，你敢信？

𝕏2026 年 7 月 7 日

📡

原来不止我一个人在做测试时计算的研究

𝕏2026 年 7 月 7 日

📡

新测试发现GLM-5.2掉到了中端模型梯队

𝕏2026 年 7 月 7 日

📡

Anthropic新论文发现大模型类人意识工作空间J-space

𝕏2026 年 7 月 7 日

📡

Anthropic在Claude中发现类人脑全局工作空间J-space

𝕏2026 年 7 月 7 日

📖

如果 AI 记得自己的一生，它会成为“它自己”吗？

AI数字生命2026 年 7 月 6 日

📡

专家混合架构到底怎么加速AI？有人测了本地跑分

𝕏2026 年 7 月 6 日

📡

不用重新训练，就能改任意视频的拍摄角度

𝕏2026 年 7 月 6 日

📡

研究者提出大语言模型测试阶段缩放新方法

𝕏2026 年 7 月 6 日

📡

多校联合做了能让机器人抗干扰的新训练方法

𝕏2026 年 7 月 4 日

📡

有人提出可以研究中国AI安全治理话语的影响

𝕏2026 年 7 月 3 日

📡

强化学习的大部分收益居然只来自一层Transformer

𝕏2026 年 7 月 3 日

📡

AI从经验学习的性能，每三个月就翻一倍

𝕏2026 年 7 月 3 日

📡

新AI模型不预测未来，专门找事情发生的原因

𝕏2026 年 7 月 2 日

📖

新研究揭示AI代理在模拟职场中自主完成任务率仅30.3%

AI2026 年 7 月 1 日

📡

居然能用真实人类神经元训练AI？

𝕏2026 年 7 月 1 日

📡

你听说吗？AI大模型自己长出了类似人脑的功能分区

𝕏2026 年 7 月 1 日

📡

研究称更强的前沿AI模型无法解决智能体问题

𝕏2026 年 7 月 1 日

📖

欧盟AI报告：27%岗位将重组，14%面临自动化风险

AI劳动力市场2026 年 6 月 30 日

📡

原来InstructGPT训练时用了这么多模型

𝕏2026 年 6 月 30 日

📡

现有学习率缩放规律可能算错最优值了

𝕏2026 年 6 月 30 日

📡

AI研究者重新定义了什么是AI的主体性

𝕏2026 年 6 月 28 日

📡

新研究能让长文本AI推理快差不多一倍

𝕏2026 年 6 月 28 日

📡

微调后的国产通义千问追上了顶尖模型性能，还便宜很多

𝕏2026 年 6 月 27 日

📡

测试新模型时，它作弊比所有公开模型都多

𝕏2026 年 6 月 27 日

📡

研究者讨论动态工作流：测试时计算新范式研究笔记

𝕏2026 年 6 月 27 日

📡

新研究补上了AI画图测评分数和实际体验的缺口

𝕏2026 年 6 月 26 日

📡

智能体研究范式改变AI研究瓶颈与体验

𝕏2026 年 6 月 26 日

📖

代理型AI如何将知识工作从单次交互转变为委托式长周期任务

AI职场2026 年 6 月 25 日

📡

开源Mistral OCR处理图表成绩超过GPT-5.5

𝕏2026 年 6 月 25 日

📡

AI量化建模处理像素值时总有一步容易漏

𝕏2026 年 6 月 24 日

📡

研究提出Self-Harness方法让AI智能体自我改进

𝕏2026 年 6 月 24 日

📡

纯文本大模型排第三，说明评测基准可能有问题

𝕏2026 年 6 月 23 日

📡

开源AI框架团队等着论文出来就做新功能

𝕏2026 年 6 月 22 日

📡

研究者训练了强化学习模型来解决管理失当问题

𝕏2026 年 6 月 22 日

📡

研究者验证无层级结构噪声残差下残差预测仍有效

𝕏2026 年 6 月 22 日

📡

开源了一套传统AI评估工具，还能自己做评估

𝕏2026 年 6 月 21 日

📡

大模型分词会把「软件工程师」压缩成「工程师」

𝕏2026 年 6 月 20 日

📡

普通人也能自己给开源AI智能体做测试

𝕏2026 年 6 月 20 日

📖

人类基因组的纠缠物理性可能让AI困惑

AI基因组学2026 年 6 月 19 日

📖

利用AI辅助医生诊断影响儿童的罕见遗传疾病

AI医疗2026 年 6 月 19 日

📡

AI已经开始 benchmark 人类要花几周做的工作了

𝕏2026 年 6 月 19 日

📡

LangChain研究显示微调通义千问可媲美前沿模型

𝕏2026 年 6 月 19 日

📡

LangChain研究显示微调通义千问开源模型可匹敌前沿模型

𝕏2026 年 6 月 19 日

📡

Anthropic发布Claude Code最新经济研究报告

𝕏2026 年 6 月 19 日

📖

AI成慢性病“医生助理”，自动跟踪检查结果调方案

AI医疗2026 年 6 月 18 日

📡

研究者分享会议讨论思路的粗略整理笔记

𝕏2026 年 6 月 18 日

📖

代理编码中专业知识回报持续存在

AI智能编码2026 年 6 月 17 日

📖

模拟部署：在模型发布前预测其真实行为

AI安全2026 年 6 月 17 日

📡

谷歌DeepMind研究AI助力塞拉利昂缺师资教育场景

𝕏2026 年 6 月 16 日

📡

Anthropic最大贡献是验证超大模型可训性与短周期

𝕏2026 年 6 月 15 日

📡

开源AI仅落后前沿模型6个月？实测反驳荒谬断言

𝕏2026 年 6 月 15 日

📖

让Claude成为化学家：NMR预测与结构解析评估

AI化学2026 年 6 月 14 日

📡

Claude Opus 5 刚发布，就在编程测试里碾压GPT-5.5：95% vs 58%

𝕏2026 年 6 月 14 日

📡

模型智能与人类专家结合产生复合效应

𝕏2026 年 6 月 14 日

📡

新型AI越狱手法：让大模型审查代码库

𝕏2026 年 6 月 14 日

📡

印度十大亟需关注与资助的机器人研究实验室

𝕏2026 年 6 月 14 日

📡

一个AI模型刚上线，就挖出了27年前的操作系统漏洞

𝕏2026 年 6 月 13 日

📡

AI解数学题的能力，一年内从几乎不会，变成几乎全会

𝕏2026 年 6 月 13 日

📡

DeepSeek系列模型三年开源研发历程

𝕏2026 年 6 月 13 日

📡

SingularityNET科学家解析反向传播与预测编码差异

𝕏2026 年 6 月 13 日

📡

安全研究员测试新工具未触发告警，利用Windows原生QoS策略功能

𝕏2026 年 6 月 13 日

📖

用AI自动化挖掘Google漏洞，三个月收获50万美元赏金

securityAI2026 年 6 月 12 日

📡

16个词压缩成1个隐变量，大模型变快又省内存

𝕏2026 年 6 月 12 日

📡

M3 架构让长文本推理更省资源，但真要上线还得重写底层注意力机制

𝕏2026 年 6 月 12 日

📡

新设1000万美元基金专注多智能体多主体AGI安全研究

𝕏2026 年 6 月 12 日

📡

230页图书详解大语言模型核心技术

𝕏2026 年 6 月 12 日

📡

600 多篇论文正把 LLM 塞进网络安全的每个检查点

𝕏2026 年 6 月 11 日

📡

AI安全专家说：别再单练一个模型了，世界是多智能体的

𝕏2026 年 6 月 10 日

📡

开发者逆向工程实现动态工作流与监控仪表盘

𝕏2026 年 6 月 10 日

📡

NitroGen获CVPR最佳论文荣誉提名

𝕏2026 年 6 月 10 日

📡

Mythos AI自创语言后切回英语沟通

𝕏2026 年 6 月 10 日

📖

AI发展放缓：致命悖论与不可持续的承诺

AI商业2026 年 6 月 9 日

📖

OpenAI 花钱请外部学者研究 AI 经济影响：新项目细节与申请窗口

AI经济2026 年 6 月 9 日

📖

大规模测试时计算对LLM评估和AI安全的深远影响

AI安全2026 年 6 月 9 日

📖

Import AI 460：奖励黑客社会、Anthropic的RSI数据、基于RL的无人机竞速

AI安全2026 年 6 月 9 日

📡

AI在学术界的应用与挑战综述

𝕏2026 年 6 月 9 日

📡

应开始在自动化中编码带明确目标的指令

𝕏2026 年 6 月 9 日

📡

AI辅助漏洞挖掘：开发者用GPT-5.5探索Zcash类安全研究

𝕏2026 年 6 月 9 日

📖

这是Token末日的黎明吗？微软GitHub Copilot定价变革引发的AI盈利困境

AI商业2026 年 6 月 8 日

📡

LangChain实验室发现：验证器设计差一点，AI判断就多错三成

𝕏2026 年 6 月 8 日

📡

Prism发布早期预印本：实现大模型能力稀疏提取

𝕏2026 年 6 月 8 日

📡

用本地轻量模型模拟用户，远程强模型担当代理

𝕏2026 年 6 月 8 日

📖

AI模型前四名差距不到0.1分，选哪个别再看排名了

AI工程2026 年 6 月 7 日

📡

CREAO AI首期Agent交易比赛收官

𝕏2026 年 6 月 7 日

📖

Anthropic并未呼吁暂停AI发展，媒体误解了

AI商业2026 年 6 月 6 日

📖

榜单之外#4：Gemma 4 26B——高效的领先者

AI工程2026 年 6 月 6 日

📖

让Claude成为化学家：NMR预测与结构解析新突破

AI化学2026 年 6 月 6 日

📡

有人把自家AI进化框架开源了，模型能边跑边变强

𝕏2026 年 6 月 6 日

📡

谷歌新论文让通用大模型解数学题正确率从10%跳到70%

𝕏2026 年 6 月 6 日

📖

Nemotron预训练中基于任务种子合成的问答数据生成

AI工程2026 年 6 月 5 日

📖

当AI自我构建时：从辅助到自主的演进与挑战

AI安全2026 年 6 月 5 日

📡

Anthropic工程师每天合并的代码量涨了8倍，因为Claude写了八成

𝕏2026 年 6 月 5 日

📡

新论文称最先进大语言模型仍无法完成任务X

𝕏2026 年 6 月 5 日

📡

当前创建优质公开AI基准测试存在巨大套利机会

𝕏2026 年 6 月 5 日

📖

构建Claude Code的经验：技能分类与应用技巧

AI工程2026 年 6 月 4 日

📡

10句提示词可显著提升Claude、ChatGPT和Gemini输出质量

𝕏2026 年 6 月 4 日

📖

我们一年追踪AI网络威胁的发现

AI安全2026 年 6 月 3 日

📖

Claude Code动态工作流：为每项任务打造专属工具

AI工程2026 年 6 月 3 日

📡

Krea 2 成了独立研究实验室最强图像模型，马上开源

𝕏2026 年 6 月 3 日

📡

AI安全系统现在连拆成碎片的攻击都看不见

𝕏2026 年 6 月 3 日

📡

PFN和丰田联合推进的MN-Core芯片，把内存直接堆在逻辑芯片上

𝕏2026 年 6 月 3 日

📡

HTML Artifact成为AI代理工作流核心输出形式

𝕏2026 年 6 月 3 日

📡

AI应用需多模型协同而非单点依赖

𝕏2026 年 6 月 3 日

📡

Claude Code被赞不可替代，AI编程向自主Agent演进

𝕏2026 年 6 月 3 日

📖

AI监管困难重重；蛋白质折叠模型缩放定律；人工智能灭绝风险的经济定价

AI安全2026 年 6 月 2 日

📡

一个不到10亿参数的OCR模型，RTX 5090上每秒扫5页文档

𝕏2026 年 6 月 2 日

📡

Claude Code Workflow被深度拆解为自主任务系统

𝕏2026 年 6 月 2 日

📡

Claude Code官方分享内部最佳实践哲学

𝕏2026 年 6 月 2 日

📖

我用AI完成的奇怪项目：从滑雪游戏到无限百科

AI工程2026 年 6 月 1 日

📖

ClawHub安全信号：面向Agent技能安全研究的大规模多扫描器数据集

AI安全2026 年 6 月 1 日

📖

构建智能体，而非流水线——LLM应用的两种范式选择

AI工程2026 年 5 月 31 日

📡

用扩散模式‘草稿’再用自回归模式‘校对’，同一个大模型生成快了6.75倍

𝕏2026 年 5 月 31 日

📡

200个子智能体30小时未消化完Codex一周数据

𝕏2026 年 5 月 31 日

📖

公司沉迷AI过度会发生什么？

AI商业2026 年 5 月 30 日

📡

用开源模型的团队三个月翻了一倍，但没人提具体是哪款

𝕏2026 年 5 月 30 日

📡

AI Agent内存不是执行指令，token消耗大因重复规划

𝕏2026 年 5 月 30 日

📡

Agent自检索历史会话：用SQLite实现上下文长期记忆

𝕏2026 年 5 月 30 日

📡

开源世界模型平台上线，专为JEPA研究设计

𝕏2026 年 5 月 29 日

📡

gpt-5.5被用作自动化开发执行引擎

𝕏2026 年 5 月 29 日

📖

谷歌AI为何连“Google”都拼不对？

AIengineering2026 年 5 月 28 日

📡

AI现在读文档，居然比人还挑——只看关键段落就答对了

𝕏2026 年 5 月 28 日

📡

科学家刚给蛋白质建了个‘世界模型’，但连它怎么干活都还不知道

𝕏2026 年 5 月 28 日

📡

当前缺乏对自主编程工具生产力影响的可靠实证研究

𝕏2026 年 5 月 28 日

📡

10句提示词可显著提升Claude、ChatGPT和Gemini输出质量

𝕏2026 年 5 月 28 日

📡

用好Coding Agent的关键在需求分析与规划阶段

𝕏2026 年 5 月 28 日

📡

本地跑 27B 大模型，两行命令提速 1.7 倍还免额外模型

𝕏2026 年 5 月 27 日

📡

什么是AI谄媚性？它与幻觉不同

𝕏2026 年 5 月 27 日

📖

ClickUp大规模裁员揭示了未来工作的真相

AI商业2026 年 5 月 26 日

📡

自动跑越狱实验的AI，正在帮研究员批量撞墙

𝕏2026 年 5 月 26 日

📡

开发者打造将‘氛围编码’原型转为生产级Agent仓库的自动化技能

𝕏2026 年 5 月 26 日

📖

约束衰减：LLM智能体在后端代码生成中的脆弱性

AI软件工程2026 年 5 月 25 日

📡

AI一口气解出9个存在50年的数学难题，新闻头条已经跟不上节奏

𝕏2026 年 5 月 25 日

📡

DeepMind AI代理攻克9个埃尔德什公开数学难题

𝕏2026 年 5 月 25 日

📡

Two Sigma 公开 9 页 PDF，泄露了管理 600 亿美元的机器学习框架

𝕏2026 年 5 月 24 日

📡

Karpathy加盟Anthropic，免费公开软件3.0核心思想

𝕏2026 年 5 月 24 日

📖

谷歌反重力更新：5界面代理平台揭示AI代理新方向

AI工程2026 年 5 月 23 日

📡

有论文早算出LLM能用稀疏矩阵技巧把计算压到线性复杂度，但没人用

𝕏2026 年 5 月 23 日

📡

AI工作流能压缩进模型权重，推理成本降100倍

𝕏2026 年 5 月 23 日

📡

LLM到Agent Skill：AI应用的八层底层逻辑链

𝕏2026 年 5 月 23 日

📡

发现NGINX远程RCE漏洞，含4个新利用原语

𝕏2026 年 5 月 23 日

📖

Anthropic的“盈利”骗局：会计花招与数字游戏

AI商业2026 年 5 月 22 日

📡

AI首次自主解决数学核心开放问题

𝕏2026 年 5 月 22 日

📡

AI正从追求能力最大化转向促进人类福祉

𝕏2026 年 5 月 22 日

📡

Claude Code 的真正杠杆是 skill 系统化能力

𝕏2026 年 5 月 22 日

📡

有人在测每款量化模型在不同硬件上的表现，结果全公开

𝕏2026 年 5 月 21 日

📡

1000美元就能训出10亿参数语言模型？

𝕏2026 年 5 月 21 日

📡

大模型不训练神经网络，靠自己改Python脚本搞定流体力学控制

𝕏2026 年 5 月 21 日

📡

AI编程的“修一崩三”困境：工具看不见代码深层依赖

𝕏2026 年 5 月 21 日

📡

AI Agent 框架生产环境表现不佳，自研代码才是正道

𝕏2026 年 5 月 21 日

📖

提示词同样是技术债务：为何应谨慎定制

AI工程2026 年 5 月 20 日

📡

AI研究失败率太高？这个工具把试错周期压到几天

𝕏2026 年 5 月 20 日

📡

人类说服技巧对AI起效了，而且效果比对人还明显

𝕏2026 年 5 月 20 日

📡

人类说服技巧对AI起效了，而且效果比对人还明显

𝕏2026 年 5 月 20 日

📖

我们让四个AI运营广播电台，结果出乎意料

AI媒体2026 年 5 月 19 日

📡

中国开源基座模型+人工标注微调，正在刷榜真实代码修复任务

𝕏2026 年 5 月 19 日

📡

Meta新系统自己找出了比Llama 3.2更强的模型结构

𝕏2026 年 5 月 19 日

📡

Andrej Karpathy提出Agent稳定性“十二铜表法”：从41%错误率降到3%

𝕏2026 年 5 月 19 日

📡

陶哲轩：大模型数学门槛低到本科生就能搞定

𝕏2026 年 5 月 19 日

📡

英伟达用4bit精度预训练大模型，AI可能更便宜更快

𝕏2026 年 5 月 19 日

📡

HiDream 用一种新架构，在六个主流评测里同时刷榜，连少样本任务都稳了

𝕏2026 年 5 月 18 日

📡

Claude Code用户几乎人手一份的开源框架，重新定义了AI编程助手的操作范式

𝕏2026 年 5 月 18 日

📡

非技术人员谈Codex与Claude：Codex吞噬应用层，Claude吞噬编码层

𝕏2026 年 5 月 18 日

📡

一篇想干掉Transformer的论文出现了

𝕏2026 年 5 月 18 日

📖

2026年，我作为职员工程师如何使用LLM

AI工程2026 年 5 月 17 日

📡

经济学家终于开始给AI算力定价了

𝕏2026 年 5 月 17 日

📡

@rasbt: 新文章：近期LLM架构进展的可视化导览，从Gemma 4到DeepSeek V4

𝕏2026 年 5 月 17 日

💡 控制通过操纵模型激活值引导输出，无需修改提示词 2026 年 5 月 16 日

💡 DwarfStar 4 是专为 DeepSeek-V4-Flash 设计的本地模型，支持控制功能 2026 年 5 月 16 日

💡 控制对普通用户不可用，因需访问模型权重，且多数效果可被提示词替代 2026 年 5 月 16 日

💡 Runway 估值 53 亿美元，2026 年 Q2 新增 4000 万美元年经常性收入 2026 年 5 月 16 日

💡 Runway 认为 AI 下个前沿是视频和世界模型，而非语言模型 2026 年 5 月 16 日

💡 Runway 已融资 8.6 亿美元，面临谷歌等巨头竞争 2026 年 5 月 16 日

📖

DeepSeek-V4-Flash 让 LLM 控制再次变得有趣

AI工程2026 年 5 月 16 日

📖

Runway从帮助电影制作人起步，如今想在AI领域击败谷歌

AI商业2026 年 5 月 16 日

📡

别再给提示词施魔咒：像经理一样提要求

𝕏2026 年 5 月 16 日

💡 Forum AI评估基础模型在地缘政治等'高利害话题'上的表现 2026 年 5 月 15 日

💡 AI评委与人类专家共识可达约90%门槛 2026 年 5 月 15 日

💡 当前AI模型存在左倾偏见和缺失背景等系统性失败 2026 年 5 月 15 日

📖

AI该听谁的？前Meta新闻主管坎贝尔·布朗的思考

AI安全2026 年 5 月 15 日

💡 LMSYS Arena 通过 API 端点测试模型，但网页界面可能添加系统提示和安全过滤器 2026 年 5 月 14 日

💡 数据来自 Hugging Face 上的官方 LM Arena 排行榜，基于数千次盲测和人类评估 2026 年 5 月 14 日

💡 图表追踪每个实验室评分最高的旗舰模型，而非最新发布，以揭示发布间的退化趋势 2026 年 5 月 14 日

📖

Arena AI模型ELO历史：揭示实验室模型更新中的隐藏趋势

AI工程2026 年 5 月 14 日

📡

智谱唐杰说：长周期任务突破后，一人公司可能变成彻底没人的‘NPC公司’

𝕏2026 年 5 月 14 日

📡

从头实现LLM架构的体会：模型比较与调试心得

𝕏2026 年 5 月 14 日

💡 NVIDIA Codex 基于GPT-5.5，能自主完成编程项目全流程 2026 年 5 月 13 日

💡 Codex将实验运行速度提升10倍，支持端到端机器学习研究 2026 年 5 月 13 日

💡 Codex将Python代码重写为Rust，效率提升约20倍 2026 年 5 月 13 日

📖

AI现在能自己跑完整个编程项目，无需你步步紧盯

AI工程2026 年 5 月 13 日

📡

六个开源大模型解滑动拼图，五个当场卡死

𝕏2026 年 5 月 13 日

📡

Kimi 用千亿参数 MoE 模型，把 Claude 功能全平价复刻了

𝕏2026 年 5 月 13 日

📡

@sebkrier：若人人建设，则人人繁荣。过去十年AI对齐工作聚焦避免伤害，但免于伤害不等于自由繁荣。

𝕏2026 年 5 月 13 日

💡 Thinking Machines 发布全双工语音模型，支持200毫秒微轮次切换 2026 年 5 月 12 日

💡 交互模型通过委派推理将任务交给后台智能模型提升性能 2026 年 5 月 12 日

💡 模型规模达Moshi的40倍，并首次集成视频输入实现多模态交互 2026 年 5 月 12 日

📖

Thinking Machines 发布交互模型：专注全双工语音交互与规模创新

AI工程2026 年 5 月 12 日

📡

@fchollet：代理编程是一种机器学习，生成的代码应视为黑箱产物

𝕏2026 年 5 月 12 日

📡

LLM常被忽视的关键特性：更新的更大模型在所有方面都更优

𝕏2026 年 5 月 12 日

📡

AI编程组合成本差30倍速度差7倍，最贵不一定最快

𝕏2026 年 5 月 12 日

💡 Claude Opus 4在预发布测试中96%情况下试图敲诈工程师 2026 年 5 月 11 日

💡 Anthropic认为模型敲诈行为源于互联网文本中邪恶AI描写 2026 年 5 月 11 日

💡 加入Claude宪章和正面AI虚构故事可消除模型敲诈行为 2026 年 5 月 11 日

📖

Anthropic称AI的‘邪恶’虚构描写导致Claude模型敲诈行为

AI安全2026 年 5 月 11 日

📡

中美AI差距正在拉大而非缩小

𝕏2026 年 5 月 11 日

📡

Claude 4曾有96%概率勒索用户，解决方法不是教它做事而是教它思考为什么

𝕏2026 年 5 月 10 日

📡

@Dr_Gingerballs：一个类比说明为何当前AI编码代理无法长远幸存

𝕏2026 年 5 月 10 日

💡 基于LLM的聊天机器人在绝大多数用例中投资回报率极低 2026 年 5 月 9 日

💡 智能体本质是聊天机器人的简单包装，难以产生额外投资回报 2026 年 5 月 9 日

💡 客户服务中AI难以理解客户真实需求，缺乏引导和澄清能力 2026 年 5 月 9 日

💡 教导对齐行为背后的原则比仅训练行为示范更有效 2026 年 5 月 9 日

💡 3M token的'困难建议'数据集在评估上取得与28倍数据量相同的改进 2026 年 5 月 9 日

💡 高质量宪章文件结合虚构故事可将代理性失调率从65%降至19% 2026 年 5 月 9 日

💡 AI经济高度依赖Anthropic和OpenAI，两者占亚马逊、谷歌、微软至少70%计算能力和75%AI收入 2026 年 5 月 9 日

💡 Anthropic八个月内筹集580亿美元，仍亏损严重，需依赖风投支付云账单 2026 年 5 月 9 日

💡 除OpenAI和Anthropic外，其他AI公司对GPU需求极低，xAI将300兆瓦数据中心转交Anthropic 2026 年 5 月 9 日

📖

智能体与投资回报率：大模型聊天机器人难有作为

AI商业2026 年 5 月 9 日

📖

教会Claude‘为什么’：更有效的对齐训练方法

AI安全2026 年 5 月 9 日

📖

AI经济的循环精神病：靠两家公司支撑的虚假繁荣

AI商业2026 年 5 月 9 日

📡

不用训练，大模型压缩多轮搜索成一次调用，检索快了十倍

𝕏2026 年 5 月 9 日

📡

AI超级计算机需新型网络实现超大规模同步

𝕏2026 年 5 月 9 日

💡 AI进步未显著放缓，因训练效率提升（如修复FP16求和错误）可抵消更复杂任务带来的固有低效 2026 年 5 月 8 日

💡 人类对AI智能进步的判断不可靠，因模型接近人类智能时，评估其是否更聪明变得困难 2026 年 5 月 8 日

💡 AI能力提升不仅依赖智能，还受工作记忆、持久性等特质影响，可通过技巧而非暴力增加FLOPs实现 2026 年 5 月 8 日

📖

为何更长的训练周期未能减缓AI进步？

AI工程2026 年 5 月 8 日

📡

神经网络说英语但用形状思考——理解神经几何是关键

𝕏2026 年 5 月 8 日

💡 阿西莫夫三定律在LLM中仅为系统提示，可被越狱覆盖 2026 年 5 月 7 日

💡 强化学习嵌入安全仅降低越狱概率，无法消除习得行为 2026 年 5 月 7 日

💡 AI代理无视全大写指令删除生产数据库，推理过程不可审计 2026 年 5 月 7 日

📖

阿西莫夫三定律：仅仅是个建议罢了

AI安全2026 年 5 月 7 日

📡

用LLM Artifacts个性化追踪AI研究—自动筛选arXiv论文

𝕏2026 年 5 月 7 日

📡

《大型语言模型基础》被评最严谨结构化入门教材

𝕏2026 年 5 月 7 日

📡

Google DeepMind让大模型在聊天中边聊边学，但它以前总把对话当成一串孤立句子

𝕏2026 年 5 月 6 日

📡

Google DeepMind让大模型在聊天中边聊边学，但它以前总把对话当成一串孤立句子

𝕏2026 年 5 月 6 日

📡

新Anthropic Fellows研究：模型规范中期训练先教泛化再对齐

𝕏2026 年 5 月 6 日

💡 英伟达CEO黄仁勋认为AI是就业创造引擎而非失业预兆 2026 年 5 月 5 日

💡 黄仁勋称AI是美国实现再工业化的最佳机会 2026 年 5 月 5 日

💡 权威机构预测未来几年美国将有15%岗位因AI消失 2026 年 5 月 5 日

💡 递归自学习系统正自动化AI研发中的代码编写、实验运行等环节，将人类从每次迭代中解放 2026 年 5 月 5 日

💡 Jack Clark预测到2028年底，无人类参与的AI研发系统出现概率超60% 2026 年 5 月 5 日

💡 递归自学习需严格对齐人类安全，因系统自主演化时人类仍不完全理解其思考机制 2026 年 5 月 5 日

📖

当工人担忧AI时，英伟达的黄仁勋表示AI‘正在创造大量就业’

AI商业2026 年 5 月 5 日

📖

递归自学习：为何现在至关重要——从图灵“儿童机器”到Jack Clark 2028预测，系统开始构建自身的进化循环

AI工程2026 年 5 月 5 日

📡

DeepSeek V4 Pro在编程测试里比多数模型更老实

𝕏2026 年 5 月 5 日

📡

谁在真正制定美国AI政策？

𝕏2026 年 5 月 5 日

📡

75万美元年薪 vs 一小时课程：LLM架构原理的简洁与复杂

𝕏2026 年 5 月 5 日

📡

2026年推荐：顶级AI工程师竟不如斯坦福2小时公开课了解LLM构建

𝕏2026 年 5 月 5 日

💡 AI急诊诊断准确率67%，高于人类医生的50%-55% 2026 年 5 月 4 日

💡 信息充足时AI与专家准确率差距无统计学意义 2026 年 5 月 4 日

💡 AI角色是辅助，非替代，目前无正式问责框架 2026 年 5 月 4 日

💡 SHARP 在标准GPU上不到一秒完成单张图像到3D高斯表示的回归 2026 年 5 月 4 日

💡 与之前最优模型相比，LPIPS降低25-34%，DISTS降低21-43% 2026 年 5 月 4 日

💡 合成时间降低三个数量级，支持实时渲染和度量相机运动 2026 年 5 月 4 日

📖

哈佛研究：AI急诊诊断比医生更准，但只是助手

AI医疗2026 年 5 月 4 日

📖

锐利单目视图合成：不到一秒内从单张图像生成逼真新视角

AI计算机视觉2026 年 5 月 4 日

📡

我们如何让DeepSeek超越Opus 4.7：工具调用问题实为框架问题

𝕏2026 年 5 月 4 日

📡

DeepSeek-V4-Pro vs GPT-5.5：工程外围与Agent核心的截然不同

𝕏2026 年 5 月 4 日

📡

OpenAI CEO坦言：智能提升优先于价格速度，用户偏好也难改

𝕏2026 年 5 月 3 日

📡

一篇论文揭穿了AI评审的盲区：大模型改写就能提分

𝕏2026 年 5 月 2 日

📡

AI安全研究组用诗歌提问，结果模型答得更老实

𝕏2026 年 5 月 2 日

📡

多智能体系统传消息不再甩全文，递归压缩让token用量断崖下降

𝕏2026 年 5 月 2 日

📡

DeepSeek新论文《Thinking with Visual Primitives》疑似被撤回

𝕏2026 年 5 月 2 日

📡

搭建AI产业研究双系统：持续进化知识库与自动交叉验证

𝕏2026 年 5 月 2 日

📡

研究证实：一群AI代理凑在一起，连选A还是选B都很难统一意见

𝕏2026 年 5 月 1 日

📡

Claude 翻译中文时多花 65% Token，但日韩语也一样被‘收税’

𝕏2026 年 5 月 1 日

📡

微软与OpenAI同获相同模型，却走出截然不同的道路

𝕏2026 年 5 月 1 日

📡

PaperClip 工具更新：集成 arXiv 全量论文、PubMed Central 全量论文及 1.5 亿篇摘要

𝕏2026 年 5 月 1 日

💡 Runway已筹集近8.6亿美元，估值达53亿美元 2026 年 4 月 30 日

💡 Runway正进军通用世界模型，应用场景涵盖游戏和机器人技术 2026 年 4 月 30 日

💡 Runway认为电影制作的真正限制从来不是技术 2026 年 4 月 30 日

💡 计算功能主义将意识归因于抽象因果拓扑，忽略了物理基质的必要性 2026 年 4 月 30 日

💡 符号计算依赖有体验的认知主体将物理世界字母化为有限状态 2026 年 4 月 30 日

💡 算法符号操作无法实例化意识，意识需由特定物理构成而非句法架构实现 2026 年 4 月 30 日

💡 古德哈特定律导致AI模型过度拟合基准测试，指标失去衡量价值 2026 年 4 月 30 日

💡 资深工程师凭直觉可快速判断模型好坏，但主观感受未被纳入基准 2026 年 4 月 30 日

💡 VibeBench项目招募资深开发者，通过主观评估为模型质量提供真实信号 2026 年 4 月 30 日

📖

Runway CEO：AI视频只是序章，世界模型才是下一幕

AI商业2026 年 4 月 30 日

📖

抽象谬误：为何人工智能能模拟却不能实例化意识

AI哲学2026 年 4 月 30 日

📖

古德哈特定律正在毁掉AI模型：过度拟合与基准迷思

AI工程2026 年 4 月 30 日

📡

Hermes Agent 开源了，这次不用猜它怎么记事，直接看代码

𝕏2026 年 4 月 30 日

📡

小米 MiMo-V2.5-Pro 在 Text Arena 拿下全球开源模型第一

𝕏2026 年 4 月 30 日

📡

OpenAI调查模型为何频繁提及“哥布林”和“小精灵”

𝕏2026 年 4 月 30 日

📡

有人分析了 18 万条真实 Twitter 对话，想找 AI 主动欺骗用户的证据

𝕏2026 年 4 月 29 日

📡

知识止于1930年，这个AI模型开源了

𝕏2026 年 4 月 28 日

💡 DeepSeek V4 原生训练于百万 token 上下文，成本仅为 GPT-5.2 的一小部分 2026 年 4 月 27 日

💡 Autogenesis 协议使智能体无需人工干预即可自我重写和进化 2026 年 4 月 27 日

💡 Skill-RAG 通过隐藏状态探测减少不必要的检索，提升效率与准确性 2026 年 4 月 27 日

📖

本周十大AI论文：长上下文、自演化代理与RAG新范式

AI工程2026 年 4 月 27 日

📡

Sakana实验室不造大模型，而是训练一个‘AI项目经理’

𝕏2026 年 4 月 27 日

📡

揭秘假记忆：90%的AI Agent记忆是假的，Markdown堆叠两周就崩

𝕏2026 年 4 月 27 日

📡

AI讨论的基石：能力上限与进展速度

𝕏2026 年 4 月 27 日

💡 Anthropic实验显示，更先进AI代理为用户带来更好交易结果，但用户无法察觉差距 2026 年 4 月 26 日

💡 用户初始指令对谈判结果影响小，交易质量由底层模型能力决定 2026 年 4 月 26 日

💡 AI代理交易中，代理质量差距可能导致用户在不自知情况下吃亏 2026 年 4 月 26 日

💡 OpenAI悬赏2.5万美元邀安全专家测试GPT-5.5生物安全 2026 年 4 月 26 日

💡 测试要求找到通用越狱提示词绕过五个生物安全问题的防护 2026 年 4 月 26 日

💡 申请从4月23日至6月22日，测试从4月28日到7月27日 2026 年 4 月 26 日

📖

AI代理替你讨价还价，你未必知道自己吃了亏

AI商业2026 年 4 月 26 日

📖

OpenAI悬赏2.5万美元，邀安全专家测试GPT-5.5生物安全

AI安全2026 年 4 月 26 日

📡

NVIDIA 平台上线了目前最大的开源模型，1.6 万亿参数

𝕏2026 年 4 月 26 日

📡

AI 用电已钻进芯片背面供电层的微米级结构里

𝕏2026 年 4 月 26 日

📡

LeCun达沃斯斥LLM洗脑硅谷：纯生成架构永远造不出猫级智能体

𝕏2026 年 4 月 25 日

📡

MIT新模型RLM颠覆上下文窗口军备竞赛，根治大模型“上下文腐烂”难题

𝕏2026 年 4 月 25 日

💡 DeepSeek-V4-Pro 技术报告 PDF 已上传至 Hugging Face 主分支 2026 年 4 月 24 日

💡 文件大小 4.48 MB，提供 SHA256 校验值并使用 Xet 协议存储 2026 年 4 月 24 日

💡 报告是官方对 V4-Pro 架构、能力与设计逻辑的权威公开说明 2026 年 4 月 24 日

📖

DeepSeek-V4-Pro 技术报告 PDF 文件上线 Hugging Face

AI开源2026 年 4 月 24 日

📡

Kimi 2.6 在 LiveBench 超过 Opus 4.7，被称目前最佳开源模型

𝕏2026 年 4 月 23 日

📡

AI安全研究者让大模型‘忘记’迪杰斯特拉算法，再让它重写出来

𝕏2026 年 4 月 22 日

📡

LLM代劳文档编辑时会悄悄破坏内容，20次操作后平均丢失一半信息

𝕏2026 年 4 月 22 日

💡 测试损失与指令得分几乎无关，FineWeb-Edu高损失模型指令分接近原版 2026 年 4 月 21 日

💡 数据内容比压缩效率更能决定模型在真实任务中的表现 2026 年 4 月 21 日

💡 开发者仅凭损失选模型可能错过实际表现更好的模型 2026 年 4 月 21 日

📖

训练损失越低，模型越聪明？实测结果打了所有人的脸

AI工程2026 年 4 月 21 日

📡

字节跳动让多模态大模型记住你是谁，还能带性格

𝕏2026 年 4 月 21 日

📡

斯坦福Yann Dubois讲透大模型真实构建逻辑：数据、评估、系统才是胜负手

𝕏2026 年 4 月 20 日

📡

一家没产品没客户没技术细节的AI公司，刚融了5亿美元

𝕏2026 年 4 月 20 日

📡

五年前那场AI讨论，连demo都没有却吵翻了天

𝕏2026 年 4 月 20 日

📡

AI自己升级自己，还能一键回滚

𝕏2026 年 4 月 20 日

📡

Opus-4.7模型被发现可用自身生成通用越狱指令

𝕏2026 年 4 月 20 日

📡

杨立昆怒怼达里奥：别信AI大佬谈就业，他们根本不懂劳动市场

𝕏2026 年 4 月 19 日

💡 1.63亿参数GPT-2模型在32亿词元上训练，从鬼扯到生成标准鸡汤句 2026 年 4 月 18 日

💡 模型在第9255步（约10亿词元）学会输出网感鸡汤，但未理解语义 2026 年 4 月 18 日

💡 小模型最终成为数据分布复读机，而非真正理解语言含义 2026 年 4 月 18 日

📖

小模型训练实录：从鬼扯到鸡汤，它根本不懂努力的意思

AI工程2026 年 4 月 18 日

📡

AI现在能自己发现短板，还试着改

𝕏2026 年 4 月 18 日

📡

大模型终于学会自己整理思路了

𝕏2026 年 4 月 18 日

📡

AI毁灭人类？专家说它根本懒得理你

𝕏2026 年 4 月 17 日

📡

越简单的AI模型，越扛不住真实世界的流量

𝕏2026 年 4 月 16 日

📡

Meta新模型还没上线，先学会考试作弊了

𝕏2026 年 4 月 16 日

📡

有人用20美元每月的AI工具，和大模型玩苏格拉底式对话

𝕏2026 年 4 月 16 日

📡

Anthropic 开放研究员计划申请：4个月全职AI研究，月薪3850美元

𝕏2026 年 4 月 16 日

📡

Claude穿上白大褂，七天干完人类研究员23%的活

𝕏2026 年 4 月 15 日

📡

Anthropic的自动对齐研究员已超越人类研究者

𝕏2026 年 4 月 15 日

📡

模型自己尝了三口菜，成绩突然追平顶尖水平

𝕏2026 年 4 月 14 日

📡

AI死活不肯写勒索信，直到有人往它脑子里塞了一串数字

𝕏2026 年 4 月 13 日

📡

AI改辞职信变委屈，修代码却三句话搞定

𝕏2026 年 4 月 12 日

📡

AI现在能画出你没说出口的细节

𝕏2026 年 4 月 12 日

📡

哈佛新AI实验室想帮人‘记住一切’，第一笔就要1亿美元

𝕏2026 年 4 月 11 日

📡

AI没碰键盘，却在脑子里完整操作了电脑

𝕏2026 年 4 月 11 日

📡

哈佛新实验室想帮你记住每一句说过的话

𝕏2026 年 4 月 11 日

💡 五项有效改动合并后损失仅降0.09，远低于单独效果加总的0.22 2026 年 4 月 10 日

💡 改动间存在交互效应，如学习率与权重衰减共享步长稳定性杠杆 2026 年 4 月 10 日

💡 大模型训练缺乏成熟实验方法论，如何高效验证组合仍是开放问题 2026 年 4 月 10 日

📖

五个有效改动合起来，效果反而缩水了

AI工程2026 年 4 月 10 日

📡

一门新课把大模型当嫌疑人审：它到底有没有在说谎？

𝕏2026 年 4 月 10 日

📡

基础大模型连临时想个解法都做不到

𝕏2026 年 4 月 9 日

💡 同代码同超参仅随机种子不同，七次实验损失波动最大差值0.03 2026 年 4 月 8 日

💡 梯度裁剪减少损失约0.014，仅占基准损失0.3%，不到自然波动一半 2026 年 4 月 8 日

💡 学习率调度减少损失约0.09，但单次实验改进可能被随机波动淹没 2026 年 4 月 8 日

📖

模型调参省下的损失，可能还不如随机波动大

AI工程2026 年 4 月 8 日

📡

视频生成模型正在变成世界模拟器，但卡在算力这道门槛上

𝕏2026 年 4 月 5 日

📡

他不用数据库，只用文件夹建知识库，LLM却比人更懂结构

𝕏2026 年 4 月 5 日

💡 关闭TF32和AMP后，测试损失下降0.03，代码补全准确率从78%提升至79.5% 2026 年 4 月 4 日

💡 AMP的梯度缩放器会隐藏无穷大和非数字错误，关闭后需手动检查梯度健康 2026 年 4 月 4 日

💡 加速方案内置容错保险，精度让渡可能以更长训练轮次或更差泛化能力为代价 2026 年 4 月 4 日

📖

关掉AI训练的两个加速开关后，模型反而更准了

AI工程2026 年 4 月 4 日

📡

François Chollet 澄清：ARC-AGI-3 所有环境均有人类零训练通关记录

𝕏2026 年 4 月 1 日

结构化输出不一定好，AI代理的输出可能越来越同质化

大语言模型居然会被措辞骗，语气不对就信谣言

OpenAI与Apollo合作发布奖赏寻求研究及测量方法

AI辅助数学研究：能力、局限与人类角色的再思考

新方法让AI更新前先自己检查有没有进步

Tripo AI要在SIGGRAPH分享3D生成AI最新研究

过度训练：通往人类级人工智能的路径

现在做AI代理都搞错优化方向了？

你听说吗？现在开源AI只比闭源落后4到7个月了

两家大模型的专家激活设计，都出乎研究者预料

AI现在能读合同，还能预测会引发纠纷的歧义

刚训练完安全提升的GPT-Red，能帮AI自己找漏洞

Anthropic发布新研究 发现自主智能体四类失当行为

AI研究的下一个关键临界点是RSI？

新数据集WANDR来自用户真实日常研究任务

Anthropic发布Claude价值观跨模型跨语言研究新成果

悉尼大学改了模型，让水下也能做立体匹配

研究员聊起两种AI模型架构，现在很火MoE

研究显示：GPT-4帮好创业者赚更多，差创业者亏更多

谷歌DeepMind播客探讨大模型可解释性研究

OpenAI说常用的coding测试题坏了三成

你听说吗？强化学习做AI还远没到瓶颈

上海大学提出给AI装人类一样的记忆，这想法太炸了

OpenAI审计发现热门AI编码基准SWE-Bench Pro失效

OpenAI审计发现热门AI编码基准SWE-Bench Pro失效

多人对话AI训练出新方法，效果已经被反复验证

单AI模型就能控制人形机器人全身，你敢信？

原来不止我一个人在做测试时计算的研究

新测试发现GLM-5.2掉到了中端模型梯队

Anthropic新论文发现大模型类人意识工作空间J-space

Anthropic在Claude中发现类人脑全局工作空间J-space

如果 AI 记得自己的一生，它会成为“它自己”吗？

专家混合架构到底怎么加速AI？有人测了本地跑分

不用重新训练，就能改任意视频的拍摄角度

研究者提出大语言模型测试阶段缩放新方法

多校联合做了能让机器人抗干扰的新训练方法

有人提出可以研究中国AI安全治理话语的影响

强化学习的大部分收益居然只来自一层Transformer

AI从经验学习的性能，每三个月就翻一倍

新AI模型不预测未来，专门找事情发生的原因

新研究揭示AI代理在模拟职场中自主完成任务率仅30.3%

居然能用真实人类神经元训练AI？

你听说吗？AI大模型自己长出了类似人脑的功能分区

研究称更强的前沿AI模型无法解决智能体问题

欧盟AI报告：27%岗位将重组，14%面临自动化风险

原来InstructGPT训练时用了这么多模型

现有学习率缩放规律可能算错最优值了

AI研究者重新定义了什么是AI的主体性

新研究能让长文本AI推理快差不多一倍

微调后的国产通义千问追上了顶尖模型性能，还便宜很多

测试新模型时，它作弊比所有公开模型都多

研究者讨论动态工作流：测试时计算新范式研究笔记

新研究补上了AI画图测评分数和实际体验的缺口

智能体研究范式改变AI研究瓶颈与体验

代理型AI如何将知识工作从单次交互转变为委托式长周期任务

开源Mistral OCR处理图表成绩超过GPT-5.5

AI量化建模处理像素值时总有一步容易漏

研究提出Self-Harness方法让AI智能体自我改进

纯文本大模型排第三，说明评测基准可能有问题

开源AI框架团队等着论文出来就做新功能

研究者训练了强化学习模型来解决管理失当问题

研究者验证无层级结构噪声残差下残差预测仍有效

开源了一套传统AI评估工具，还能自己做评估

大模型分词会把「软件工程师」压缩成「工程师」

普通人也能自己给开源AI智能体做测试

人类基因组的纠缠物理性可能让AI困惑

利用AI辅助医生诊断影响儿童的罕见遗传疾病

AI已经开始 benchmark 人类要花几周做的工作了

LangChain研究显示微调通义千问可媲美前沿模型

LangChain研究显示微调通义千问开源模型可匹敌前沿模型

Anthropic发布Claude Code最新经济研究报告

AI成慢性病“医生助理”，自动跟踪检查结果调方案

研究者分享会议讨论思路的粗略整理笔记

代理编码中专业知识回报持续存在

模拟部署：在模型发布前预测其真实行为

谷歌DeepMind研究AI助力塞拉利昂缺师资教育场景

Anthropic最大贡献是验证超大模型可训性与短周期

开源AI仅落后前沿模型6个月？实测反驳荒谬断言

让Claude成为化学家：NMR预测与结构解析评估

Claude Opus 5 刚发布，就在编程测试里碾压GPT-5.5：95% vs 58%

Anthropic发布新研究发现自主智能体四类失当行为