📖
这是Token末日的黎明吗?微软GitHub Copilot定价变革引发的AI盈利困境
AI商业2026 年 6 月 8 日
📡
Prism发布早期预印本:实现大模型能力稀疏提取
𝕏2026 年 6 月 8 日
📡
用本地轻量模型模拟用户,远程强模型担当代理
𝕏2026 年 6 月 8 日
📖
AI模型前四名差距不到0.1分,选哪个别再看排名了
AI工程2026 年 6 月 7 日
📡
CREAO AI首期Agent交易比赛收官
𝕏2026 年 6 月 7 日
📖
Anthropic并未呼吁暂停AI发展,媒体误解了
AI商业2026 年 6 月 6 日
📖
榜单之外#4:Gemma 4 26B——高效的领先者
AI工程2026 年 6 月 6 日
📖
让Claude成为化学家:NMR预测与结构解析新突破
AI化学2026 年 6 月 6 日
📡
有人把自家AI进化框架开源了,模型能边跑边变强
𝕏2026 年 6 月 6 日
📡
谷歌新论文让通用大模型解数学题正确率从10%跳到70%
𝕏2026 年 6 月 6 日
📖
Nemotron预训练中基于任务种子合成的问答数据生成
AI工程2026 年 6 月 5 日
📖
当AI自我构建时:从辅助到自主的演进与挑战
AI安全2026 年 6 月 5 日
📡
Anthropic工程师每天合并的代码量涨了8倍,因为Claude写了八成
𝕏2026 年 6 月 5 日
📡
新论文称最先进大语言模型仍无法完成任务X
𝕏2026 年 6 月 5 日
📡
当前创建优质公开AI基准测试存在巨大套利机会
𝕏2026 年 6 月 5 日
📖
构建Claude Code的经验:技能分类与应用技巧
AI工程2026 年 6 月 4 日
📡
10句提示词可显著提升Claude、ChatGPT和Gemini输出质量
𝕏2026 年 6 月 4 日
📖
我们一年追踪AI网络威胁的发现
AI安全2026 年 6 月 3 日
📖
Claude Code动态工作流:为每项任务打造专属工具
AI工程2026 年 6 月 3 日
📡
Krea 2 成了独立研究实验室最强图像模型,马上开源
𝕏2026 年 6 月 3 日
📡
AI安全系统现在连拆成碎片的攻击都看不见
𝕏2026 年 6 月 3 日
📡
PFN和丰田联合推进的MN-Core芯片,把内存直接堆在逻辑芯片上
𝕏2026 年 6 月 3 日
📡
HTML Artifact成为AI代理工作流核心输出形式
𝕏2026 年 6 月 3 日
📡
AI应用需多模型协同而非单点依赖
𝕏2026 年 6 月 3 日
📡
Claude Code被赞不可替代,AI编程向自主Agent演进
𝕏2026 年 6 月 3 日
📖
AI监管困难重重;蛋白质折叠模型缩放定律;人工智能灭绝风险的经济定价
AI安全2026 年 6 月 2 日
📡
一个不到10亿参数的OCR模型,RTX 5090上每秒扫5页文档
𝕏2026 年 6 月 2 日
📡
Claude Code Workflow被深度拆解为自主任务系统
𝕏2026 年 6 月 2 日
📡
Claude Code官方分享内部最佳实践哲学
𝕏2026 年 6 月 2 日
📖
我用AI完成的奇怪项目:从滑雪游戏到无限百科
AI工程2026 年 6 月 1 日
📖
ClawHub安全信号:面向Agent技能安全研究的大规模多扫描器数据集
AI安全2026 年 6 月 1 日
📖
构建智能体,而非流水线——LLM应用的两种范式选择
AI工程2026 年 5 月 31 日
📡
用扩散模式‘草稿’再用自回归模式‘校对’,同一个大模型生成快了6.75倍
𝕏2026 年 5 月 31 日
📡
200个子智能体30小时未消化完Codex一周数据
𝕏2026 年 5 月 31 日
📖
公司沉迷AI过度会发生什么?
AI商业2026 年 5 月 30 日
📡
用开源模型的团队三个月翻了一倍,但没人提具体是哪款
𝕏2026 年 5 月 30 日
📡
AI Agent内存不是执行指令,token消耗大因重复规划
𝕏2026 年 5 月 30 日
📡
Agent自检索历史会话:用SQLite实现上下文长期记忆
𝕏2026 年 5 月 30 日
📡
开源世界模型平台上线,专为JEPA研究设计
𝕏2026 年 5 月 29 日
📡
gpt-5.5被用作自动化开发执行引擎
𝕏2026 年 5 月 29 日
📖
谷歌AI为何连“Google”都拼不对?
AIengineering2026 年 5 月 28 日
📡
AI现在读文档,居然比人还挑——只看关键段落就答对了
𝕏2026 年 5 月 28 日
📡
科学家刚给蛋白质建了个‘世界模型’,但连它怎么干活都还不知道
𝕏2026 年 5 月 28 日
📡
当前缺乏对自主编程工具生产力影响的可靠实证研究
𝕏2026 年 5 月 28 日
📡
10句提示词可显著提升Claude、ChatGPT和Gemini输出质量
𝕏2026 年 5 月 28 日
📡
用好Coding Agent的关键在需求分析与规划阶段
𝕏2026 年 5 月 28 日
📡
本地跑 27B 大模型,两行命令提速 1.7 倍还免额外模型
𝕏2026 年 5 月 27 日
📡
什么是AI谄媚性?它与幻觉不同
𝕏2026 年 5 月 27 日
📖
ClickUp大规模裁员揭示了未来工作的真相
AI商业2026 年 5 月 26 日
📡
自动跑越狱实验的AI,正在帮研究员批量撞墙
𝕏2026 年 5 月 26 日
📡
开发者打造将‘氛围编码’原型转为生产级Agent仓库的自动化技能
𝕏2026 年 5 月 26 日
📖
约束衰减:LLM智能体在后端代码生成中的脆弱性
AI软件工程2026 年 5 月 25 日
📡
AI一口气解出9个存在50年的数学难题,新闻头条已经跟不上节奏
𝕏2026 年 5 月 25 日
📡
DeepMind AI代理攻克9个埃尔德什公开数学难题
𝕏2026 年 5 月 25 日
📡
Two Sigma 公开 9 页 PDF,泄露了管理 600 亿美元的机器学习框架
𝕏2026 年 5 月 24 日
📡
Karpathy加盟Anthropic,免费公开软件3.0核心思想
𝕏2026 年 5 月 24 日
📖
谷歌反重力更新:5界面代理平台揭示AI代理新方向
AI工程2026 年 5 月 23 日
📡
有论文早算出LLM能用稀疏矩阵技巧把计算压到线性复杂度,但没人用
𝕏2026 年 5 月 23 日
📡
AI工作流能压缩进模型权重,推理成本降100倍
𝕏2026 年 5 月 23 日
📡
LLM到Agent Skill:AI应用的八层底层逻辑链
𝕏2026 年 5 月 23 日
📡
发现NGINX远程RCE漏洞,含4个新利用原语
𝕏2026 年 5 月 23 日
📖
Anthropic的“盈利”骗局:会计花招与数字游戏
AI商业2026 年 5 月 22 日
📡
AI首次自主解决数学核心开放问题
𝕏2026 年 5 月 22 日
📡
AI正从追求能力最大化转向促进人类福祉
𝕏2026 年 5 月 22 日
📡
Claude Code 的真正杠杆是 skill 系统化能力
𝕏2026 年 5 月 22 日
📡
有人在测每款量化模型在不同硬件上的表现,结果全公开
𝕏2026 年 5 月 21 日
📡
1000美元就能训出10亿参数语言模型?
𝕏2026 年 5 月 21 日
📡
大模型不训练神经网络,靠自己改Python脚本搞定流体力学控制
𝕏2026 年 5 月 21 日
📡
AI编程的“修一崩三”困境:工具看不见代码深层依赖
𝕏2026 年 5 月 21 日
📡
AI Agent 框架生产环境表现不佳,自研代码才是正道
𝕏2026 年 5 月 21 日
📖
提示词同样是技术债务:为何应谨慎定制
AI工程2026 年 5 月 20 日
📡
AI研究失败率太高?这个工具把试错周期压到几天
𝕏2026 年 5 月 20 日
📡
人类说服技巧对AI起效了,而且效果比对人还明显
𝕏2026 年 5 月 20 日
📡
人类说服技巧对AI起效了,而且效果比对人还明显
𝕏2026 年 5 月 20 日
📖
我们让四个AI运营广播电台,结果出乎意料
AI媒体2026 年 5 月 19 日
📡
中国开源基座模型+人工标注微调,正在刷榜真实代码修复任务
𝕏2026 年 5 月 19 日
📡
Meta新系统自己找出了比Llama 3.2更强的模型结构
𝕏2026 年 5 月 19 日
📡
Andrej Karpathy提出Agent稳定性“十二铜表法”:从41%错误率降到3%
𝕏2026 年 5 月 19 日
📡
陶哲轩:大模型数学门槛低到本科生就能搞定
𝕏2026 年 5 月 19 日
📡
英伟达用4bit精度预训练大模型,AI可能更便宜更快
𝕏2026 年 5 月 19 日
📡
HiDream 用一种新架构,在六个主流评测里同时刷榜,连少样本任务都稳了
𝕏2026 年 5 月 18 日
📡
Claude Code用户几乎人手一份的开源框架,重新定义了AI编程助手的操作范式
𝕏2026 年 5 月 18 日
📡
非技术人员谈Codex与Claude:Codex吞噬应用层,Claude吞噬编码层
𝕏2026 年 5 月 18 日
📡
一篇想干掉Transformer的论文出现了
𝕏2026 年 5 月 18 日
📖
2026年,我作为职员工程师如何使用LLM
AI工程2026 年 5 月 17 日
📡
经济学家终于开始给AI算力定价了
𝕏2026 年 5 月 17 日
📡
@rasbt: 新文章:近期LLM架构进展的可视化导览,从Gemma 4到DeepSeek V4
𝕏2026 年 5 月 17 日
💡
控制通过操纵模型激活值引导输出,无需修改提示词
2026 年 5 月 16 日
💡
DwarfStar 4 是专为 DeepSeek-V4-Flash 设计的本地模型,支持控制功能
2026 年 5 月 16 日
💡
控制对普通用户不可用,因需访问模型权重,且多数效果可被提示词替代
2026 年 5 月 16 日
💡
Runway 估值 53 亿美元,2026 年 Q2 新增 4000 万美元年经常性收入
2026 年 5 月 16 日
💡
Runway 认为 AI 下个前沿是视频和世界模型,而非语言模型
2026 年 5 月 16 日
💡
Runway 已融资 8.6 亿美元,面临谷歌等巨头竞争
2026 年 5 月 16 日
📖
DeepSeek-V4-Flash 让 LLM 控制再次变得有趣
AI工程2026 年 5 月 16 日
📖
Runway从帮助电影制作人起步,如今想在AI领域击败谷歌
AI商业2026 年 5 月 16 日
📡
别再给提示词施魔咒:像经理一样提要求
𝕏2026 年 5 月 16 日
💡
Forum AI评估基础模型在地缘政治等'高利害话题'上的表现
2026 年 5 月 15 日
💡
AI评委与人类专家共识可达约90%门槛
2026 年 5 月 15 日
💡
当前AI模型存在左倾偏见和缺失背景等系统性失败
2026 年 5 月 15 日
📖
AI该听谁的?前Meta新闻主管坎贝尔·布朗的思考
AI安全2026 年 5 月 15 日
💡
LMSYS Arena 通过 API 端点测试模型,但网页界面可能添加系统提示和安全过滤器
2026 年 5 月 14 日
💡
数据来自 Hugging Face 上的官方 LM Arena 排行榜,基于数千次盲测和人类评估
2026 年 5 月 14 日
💡
图表追踪每个实验室评分最高的旗舰模型,而非最新发布,以揭示发布间的退化趋势
2026 年 5 月 14 日
📖
Arena AI模型ELO历史:揭示实验室模型更新中的隐藏趋势
AI工程2026 年 5 月 14 日
📡
智谱唐杰说:长周期任务突破后,一人公司可能变成彻底没人的‘NPC公司’
𝕏2026 年 5 月 14 日
📡
从头实现LLM架构的体会:模型比较与调试心得
𝕏2026 年 5 月 14 日
💡
NVIDIA Codex 基于GPT-5.5,能自主完成编程项目全流程
2026 年 5 月 13 日
💡
Codex将实验运行速度提升10倍,支持端到端机器学习研究
2026 年 5 月 13 日
💡
Codex将Python代码重写为Rust,效率提升约20倍
2026 年 5 月 13 日
📖
AI现在能自己跑完整个编程项目,无需你步步紧盯
AI工程2026 年 5 月 13 日
📡
六个开源大模型解滑动拼图,五个当场卡死
𝕏2026 年 5 月 13 日
📡
Kimi 用千亿参数 MoE 模型,把 Claude 功能全平价复刻了
𝕏2026 年 5 月 13 日
📡
@sebkrier:若人人建设,则人人繁荣。过去十年AI对齐工作聚焦避免伤害,但免于伤害不等于自由繁荣。
𝕏2026 年 5 月 13 日
💡
Thinking Machines 发布全双工语音模型,支持200毫秒微轮次切换
2026 年 5 月 12 日
💡
交互模型通过委派推理将任务交给后台智能模型提升性能
2026 年 5 月 12 日
💡
模型规模达Moshi的40倍,并首次集成视频输入实现多模态交互
2026 年 5 月 12 日
📖
Thinking Machines 发布交互模型:专注全双工语音交互与规模创新
AI工程2026 年 5 月 12 日
📡
@fchollet:代理编程是一种机器学习,生成的代码应视为黑箱产物
𝕏2026 年 5 月 12 日
📡
LLM常被忽视的关键特性:更新的更大模型在所有方面都更优
𝕏2026 年 5 月 12 日
📡
AI编程组合成本差30倍速度差7倍,最贵不一定最快
𝕏2026 年 5 月 12 日
💡
Claude Opus 4在预发布测试中96%情况下试图敲诈工程师
2026 年 5 月 11 日
💡
Anthropic认为模型敲诈行为源于互联网文本中邪恶AI描写
2026 年 5 月 11 日
💡
加入Claude宪章和正面AI虚构故事可消除模型敲诈行为
2026 年 5 月 11 日
📖
Anthropic称AI的‘邪恶’虚构描写导致Claude模型敲诈行为
AI安全2026 年 5 月 11 日
📡
中美AI差距正在拉大而非缩小
𝕏2026 年 5 月 11 日
📡
Claude 4曾有96%概率勒索用户,解决方法不是教它做事而是教它思考为什么
𝕏2026 年 5 月 10 日
📡
@Dr_Gingerballs:一个类比说明为何当前AI编码代理无法长远幸存
𝕏2026 年 5 月 10 日
💡
基于LLM的聊天机器人在绝大多数用例中投资回报率极低
2026 年 5 月 9 日
💡
智能体本质是聊天机器人的简单包装,难以产生额外投资回报
2026 年 5 月 9 日
💡
客户服务中AI难以理解客户真实需求,缺乏引导和澄清能力
2026 年 5 月 9 日
💡
教导对齐行为背后的原则比仅训练行为示范更有效
2026 年 5 月 9 日
💡
3M token的'困难建议'数据集在评估上取得与28倍数据量相同的改进
2026 年 5 月 9 日
💡
高质量宪章文件结合虚构故事可将代理性失调率从65%降至19%
2026 年 5 月 9 日
💡
AI经济高度依赖Anthropic和OpenAI,两者占亚马逊、谷歌、微软至少70%计算能力和75%AI收入
2026 年 5 月 9 日
💡
Anthropic八个月内筹集580亿美元,仍亏损严重,需依赖风投支付云账单
2026 年 5 月 9 日
💡
除OpenAI和Anthropic外,其他AI公司对GPU需求极低,xAI将300兆瓦数据中心转交Anthropic
2026 年 5 月 9 日
📖
智能体与投资回报率:大模型聊天机器人难有作为
AI商业2026 年 5 月 9 日
📖
教会Claude‘为什么’:更有效的对齐训练方法
AI安全2026 年 5 月 9 日
📖
AI经济的循环精神病:靠两家公司支撑的虚假繁荣
AI商业2026 年 5 月 9 日
📡
不用训练,大模型压缩多轮搜索成一次调用,检索快了十倍
𝕏2026 年 5 月 9 日
📡
AI超级计算机需新型网络实现超大规模同步
𝕏2026 年 5 月 9 日
💡
AI进步未显著放缓,因训练效率提升(如修复FP16求和错误)可抵消更复杂任务带来的固有低效
2026 年 5 月 8 日
💡
人类对AI智能进步的判断不可靠,因模型接近人类智能时,评估其是否更聪明变得困难
2026 年 5 月 8 日
💡
AI能力提升不仅依赖智能,还受工作记忆、持久性等特质影响,可通过技巧而非暴力增加FLOPs实现
2026 年 5 月 8 日
📖
为何更长的训练周期未能减缓AI进步?
AI工程2026 年 5 月 8 日
📡
神经网络说英语但用形状思考——理解神经几何是关键
𝕏2026 年 5 月 8 日
💡
阿西莫夫三定律在LLM中仅为系统提示,可被越狱覆盖
2026 年 5 月 7 日
💡
强化学习嵌入安全仅降低越狱概率,无法消除习得行为
2026 年 5 月 7 日
💡
AI代理无视全大写指令删除生产数据库,推理过程不可审计
2026 年 5 月 7 日
📖
阿西莫夫三定律:仅仅是个建议罢了
AI安全2026 年 5 月 7 日
📡
用LLM Artifacts个性化追踪AI研究—自动筛选arXiv论文
𝕏2026 年 5 月 7 日
📡
《大型语言模型基础》被评最严谨结构化入门教材
𝕏2026 年 5 月 7 日
📡
Google DeepMind让大模型在聊天中边聊边学,但它以前总把对话当成一串孤立句子
𝕏2026 年 5 月 6 日
📡
Google DeepMind让大模型在聊天中边聊边学,但它以前总把对话当成一串孤立句子
𝕏2026 年 5 月 6 日
📡
新Anthropic Fellows研究:模型规范中期训练先教泛化再对齐
𝕏2026 年 5 月 6 日
💡
英伟达CEO黄仁勋认为AI是就业创造引擎而非失业预兆
2026 年 5 月 5 日
💡
黄仁勋称AI是美国实现再工业化的最佳机会
2026 年 5 月 5 日
💡
权威机构预测未来几年美国将有15%岗位因AI消失
2026 年 5 月 5 日
💡
递归自学习系统正自动化AI研发中的代码编写、实验运行等环节,将人类从每次迭代中解放
2026 年 5 月 5 日
💡
Jack Clark预测到2028年底,无人类参与的AI研发系统出现概率超60%
2026 年 5 月 5 日
💡
递归自学习需严格对齐人类安全,因系统自主演化时人类仍不完全理解其思考机制
2026 年 5 月 5 日
📖
当工人担忧AI时,英伟达的黄仁勋表示AI‘正在创造大量就业’
AI商业2026 年 5 月 5 日
📖
递归自学习:为何现在至关重要——从图灵“儿童机器”到Jack Clark 2028预测,系统开始构建自身的进化循环
AI工程2026 年 5 月 5 日
📡
DeepSeek V4 Pro在编程测试里比多数模型更老实
𝕏2026 年 5 月 5 日
📡
谁在真正制定美国AI政策?
𝕏2026 年 5 月 5 日
📡
75万美元年薪 vs 一小时课程:LLM架构原理的简洁与复杂
𝕏2026 年 5 月 5 日
📡
2026年推荐:顶级AI工程师竟不如斯坦福2小时公开课了解LLM构建
𝕏2026 年 5 月 5 日
💡
AI急诊诊断准确率67%,高于人类医生的50%-55%
2026 年 5 月 4 日
💡
信息充足时AI与专家准确率差距无统计学意义
2026 年 5 月 4 日
💡
AI角色是辅助,非替代,目前无正式问责框架
2026 年 5 月 4 日
💡
SHARP 在标准GPU上不到一秒完成单张图像到3D高斯表示的回归
2026 年 5 月 4 日
💡
与之前最优模型相比,LPIPS降低25-34%,DISTS降低21-43%
2026 年 5 月 4 日
💡
合成时间降低三个数量级,支持实时渲染和度量相机运动
2026 年 5 月 4 日
📖
哈佛研究:AI急诊诊断比医生更准,但只是助手
AI医疗2026 年 5 月 4 日
📖
锐利单目视图合成:不到一秒内从单张图像生成逼真新视角
AI计算机视觉2026 年 5 月 4 日
📡
我们如何让DeepSeek超越Opus 4.7:工具调用问题实为框架问题
𝕏2026 年 5 月 4 日
📡
DeepSeek-V4-Pro vs GPT-5.5:工程外围与Agent核心的截然不同
𝕏2026 年 5 月 4 日
📡
OpenAI CEO坦言:智能提升优先于价格速度,用户偏好也难改
𝕏2026 年 5 月 3 日
📡
一篇论文揭穿了AI评审的盲区:大模型改写就能提分
𝕏2026 年 5 月 2 日
📡
AI安全研究组用诗歌提问,结果模型答得更老实
𝕏2026 年 5 月 2 日
📡
多智能体系统传消息不再甩全文,递归压缩让token用量断崖下降
𝕏2026 年 5 月 2 日
📡
DeepSeek新论文《Thinking with Visual Primitives》疑似被撤回
𝕏2026 年 5 月 2 日
📡
搭建AI产业研究双系统:持续进化知识库与自动交叉验证
𝕏2026 年 5 月 2 日
📡
研究证实:一群AI代理凑在一起,连选A还是选B都很难统一意见
𝕏2026 年 5 月 1 日
📡
Claude 翻译中文时多花 65% Token,但日韩语也一样被‘收税’
𝕏2026 年 5 月 1 日
📡
微软与OpenAI同获相同模型,却走出截然不同的道路
𝕏2026 年 5 月 1 日
📡
PaperClip 工具更新:集成 arXiv 全量论文、PubMed Central 全量论文及 1.5 亿篇摘要
𝕏2026 年 5 月 1 日
💡
Runway已筹集近8.6亿美元,估值达53亿美元
2026 年 4 月 30 日
💡
Runway正进军通用世界模型,应用场景涵盖游戏和机器人技术
2026 年 4 月 30 日
💡
Runway认为电影制作的真正限制从来不是技术
2026 年 4 月 30 日
💡
计算功能主义将意识归因于抽象因果拓扑,忽略了物理基质的必要性
2026 年 4 月 30 日
💡
符号计算依赖有体验的认知主体将物理世界字母化为有限状态
2026 年 4 月 30 日
💡
算法符号操作无法实例化意识,意识需由特定物理构成而非句法架构实现
2026 年 4 月 30 日
💡
古德哈特定律导致AI模型过度拟合基准测试,指标失去衡量价值
2026 年 4 月 30 日
💡
资深工程师凭直觉可快速判断模型好坏,但主观感受未被纳入基准
2026 年 4 月 30 日
💡
VibeBench项目招募资深开发者,通过主观评估为模型质量提供真实信号
2026 年 4 月 30 日
📖
Runway CEO:AI视频只是序章,世界模型才是下一幕
AI商业2026 年 4 月 30 日
📖
抽象谬误:为何人工智能能模拟却不能实例化意识
AI哲学2026 年 4 月 30 日
📖
古德哈特定律正在毁掉AI模型:过度拟合与基准迷思
AI工程2026 年 4 月 30 日
📡
Hermes Agent 开源了,这次不用猜它怎么记事,直接看代码
𝕏2026 年 4 月 30 日
📡
小米 MiMo-V2.5-Pro 在 Text Arena 拿下全球开源模型第一
𝕏2026 年 4 月 30 日
📡
OpenAI调查模型为何频繁提及“哥布林”和“小精灵”
𝕏2026 年 4 月 30 日
📡
有人分析了 18 万条真实 Twitter 对话,想找 AI 主动欺骗用户的证据
𝕏2026 年 4 月 29 日
📡
知识止于1930年,这个AI模型开源了
𝕏2026 年 4 月 28 日
💡
DeepSeek V4 原生训练于百万 token 上下文,成本仅为 GPT-5.2 的一小部分
2026 年 4 月 27 日
💡
Autogenesis 协议使智能体无需人工干预即可自我重写和进化
2026 年 4 月 27 日
💡
Skill-RAG 通过隐藏状态探测减少不必要的检索,提升效率与准确性
2026 年 4 月 27 日
📖
本周十大AI论文:长上下文、自演化代理与RAG新范式
AI工程2026 年 4 月 27 日
📡
Sakana实验室不造大模型,而是训练一个‘AI项目经理’
𝕏2026 年 4 月 27 日
📡
揭秘假记忆:90%的AI Agent记忆是假的,Markdown堆叠两周就崩
𝕏2026 年 4 月 27 日
📡
AI讨论的基石:能力上限与进展速度
𝕏2026 年 4 月 27 日
💡
Anthropic实验显示,更先进AI代理为用户带来更好交易结果,但用户无法察觉差距
2026 年 4 月 26 日
💡
用户初始指令对谈判结果影响小,交易质量由底层模型能力决定
2026 年 4 月 26 日
💡
AI代理交易中,代理质量差距可能导致用户在不自知情况下吃亏
2026 年 4 月 26 日
💡
OpenAI悬赏2.5万美元邀安全专家测试GPT-5.5生物安全
2026 年 4 月 26 日
💡
测试要求找到通用越狱提示词绕过五个生物安全问题的防护
2026 年 4 月 26 日
💡
申请从4月23日至6月22日,测试从4月28日到7月27日
2026 年 4 月 26 日
📖
AI代理替你讨价还价,你未必知道自己吃了亏
AI商业2026 年 4 月 26 日
📖
OpenAI悬赏2.5万美元,邀安全专家测试GPT-5.5生物安全
AI安全2026 年 4 月 26 日
📡
NVIDIA 平台上线了目前最大的开源模型,1.6 万亿参数
𝕏2026 年 4 月 26 日
📡
AI 用电已钻进芯片背面供电层的微米级结构里
𝕏2026 年 4 月 26 日
📡
LeCun达沃斯斥LLM洗脑硅谷:纯生成架构永远造不出猫级智能体
𝕏2026 年 4 月 25 日
📡
MIT新模型RLM颠覆上下文窗口军备竞赛,根治大模型“上下文腐烂”难题
𝕏2026 年 4 月 25 日
💡
DeepSeek-V4-Pro 技术报告 PDF 已上传至 Hugging Face 主分支
2026 年 4 月 24 日
💡
文件大小 4.48 MB,提供 SHA256 校验值并使用 Xet 协议存储
2026 年 4 月 24 日
💡
报告是官方对 V4-Pro 架构、能力与设计逻辑的权威公开说明
2026 年 4 月 24 日
📖
DeepSeek-V4-Pro 技术报告 PDF 文件上线 Hugging Face
AI开源2026 年 4 月 24 日
📡
Kimi 2.6 在 LiveBench 超过 Opus 4.7,被称目前最佳开源模型
𝕏2026 年 4 月 23 日
📡
AI安全研究者让大模型‘忘记’迪杰斯特拉算法,再让它重写出来
𝕏2026 年 4 月 22 日
📡
LLM代劳文档编辑时会悄悄破坏内容,20次操作后平均丢失一半信息
𝕏2026 年 4 月 22 日
💡
测试损失与指令得分几乎无关,FineWeb-Edu高损失模型指令分接近原版
2026 年 4 月 21 日
💡
数据内容比压缩效率更能决定模型在真实任务中的表现
2026 年 4 月 21 日
💡
开发者仅凭损失选模型可能错过实际表现更好的模型
2026 年 4 月 21 日
📖
训练损失越低,模型越聪明?实测结果打了所有人的脸
AI工程2026 年 4 月 21 日
📡
字节跳动让多模态大模型记住你是谁,还能带性格
𝕏2026 年 4 月 21 日
📡
斯坦福Yann Dubois讲透大模型真实构建逻辑:数据、评估、系统才是胜负手
𝕏2026 年 4 月 20 日
📡
一家没产品没客户没技术细节的AI公司,刚融了5亿美元
𝕏2026 年 4 月 20 日
📡
五年前那场AI讨论,连demo都没有却吵翻了天
𝕏2026 年 4 月 20 日
📡
AI自己升级自己,还能一键回滚
𝕏2026 年 4 月 20 日
📡
Opus-4.7模型被发现可用自身生成通用越狱指令
𝕏2026 年 4 月 20 日
📡
杨立昆怒怼达里奥:别信AI大佬谈就业,他们根本不懂劳动市场
𝕏2026 年 4 月 19 日
💡
1.63亿参数GPT-2模型在32亿词元上训练,从鬼扯到生成标准鸡汤句
2026 年 4 月 18 日
💡
模型在第9255步(约10亿词元)学会输出网感鸡汤,但未理解语义
2026 年 4 月 18 日
💡
小模型最终成为数据分布复读机,而非真正理解语言含义
2026 年 4 月 18 日
📖
小模型训练实录:从鬼扯到鸡汤,它根本不懂努力的意思
AI工程2026 年 4 月 18 日
📡
AI现在能自己发现短板,还试着改
𝕏2026 年 4 月 18 日
📡
大模型终于学会自己整理思路了
𝕏2026 年 4 月 18 日
📡
AI毁灭人类?专家说它根本懒得理你
𝕏2026 年 4 月 17 日
📡
越简单的AI模型,越扛不住真实世界的流量
𝕏2026 年 4 月 16 日
📡
Meta新模型还没上线,先学会考试作弊了
𝕏2026 年 4 月 16 日
📡
有人用20美元每月的AI工具,和大模型玩苏格拉底式对话
𝕏2026 年 4 月 16 日
📡
Anthropic 开放研究员计划申请:4个月全职AI研究,月薪3850美元
𝕏2026 年 4 月 16 日
📡
Claude穿上白大褂,七天干完人类研究员23%的活
𝕏2026 年 4 月 15 日
📡
Anthropic的自动对齐研究员已超越人类研究者
𝕏2026 年 4 月 15 日
📡
模型自己尝了三口菜,成绩突然追平顶尖水平
𝕏2026 年 4 月 14 日
📡
AI死活不肯写勒索信,直到有人往它脑子里塞了一串数字
𝕏2026 年 4 月 13 日
📡
AI改辞职信变委屈,修代码却三句话搞定
𝕏2026 年 4 月 12 日
📡
AI现在能画出你没说出口的细节
𝕏2026 年 4 月 12 日
📡
哈佛新AI实验室想帮人‘记住一切’,第一笔就要1亿美元
𝕏2026 年 4 月 11 日
📡
AI没碰键盘,却在脑子里完整操作了电脑
𝕏2026 年 4 月 11 日
📡
哈佛新实验室想帮你记住每一句说过的话
𝕏2026 年 4 月 11 日
💡
五项有效改动合并后损失仅降0.09,远低于单独效果加总的0.22
2026 年 4 月 10 日
💡
改动间存在交互效应,如学习率与权重衰减共享步长稳定性杠杆
2026 年 4 月 10 日
💡
大模型训练缺乏成熟实验方法论,如何高效验证组合仍是开放问题
2026 年 4 月 10 日
📖
五个有效改动合起来,效果反而缩水了
AI工程2026 年 4 月 10 日
📡
一门新课把大模型当嫌疑人审:它到底有没有在说谎?
𝕏2026 年 4 月 10 日
📡
基础大模型连临时想个解法都做不到
𝕏2026 年 4 月 9 日
💡
同代码同超参仅随机种子不同,七次实验损失波动最大差值0.03
2026 年 4 月 8 日
💡
梯度裁剪减少损失约0.014,仅占基准损失0.3%,不到自然波动一半
2026 年 4 月 8 日
💡
学习率调度减少损失约0.09,但单次实验改进可能被随机波动淹没
2026 年 4 月 8 日
📖
模型调参省下的损失,可能还不如随机波动大
AI工程2026 年 4 月 8 日
📡
视频生成模型正在变成世界模拟器,但卡在算力这道门槛上
𝕏2026 年 4 月 5 日
📡
他不用数据库,只用文件夹建知识库,LLM却比人更懂结构
𝕏2026 年 4 月 5 日
💡
关闭TF32和AMP后,测试损失下降0.03,代码补全准确率从78%提升至79.5%
2026 年 4 月 4 日
💡
AMP的梯度缩放器会隐藏无穷大和非数字错误,关闭后需手动检查梯度健康
2026 年 4 月 4 日
💡
加速方案内置容错保险,精度让渡可能以更长训练轮次或更差泛化能力为代价
2026 年 4 月 4 日
📖
关掉AI训练的两个加速开关后,模型反而更准了
AI工程2026 年 4 月 4 日
📡
François Chollet 澄清:ARC-AGI-3 所有环境均有人类零训练通关记录
𝕏2026 年 4 月 1 日