AI Pulse

AI越来越聪明,但如何确保它不失控?一批研究者正寻求答案

AI越来越聪明,但如何确保它不失控?一批研究者正寻求答案

来自英国AI安全研究所对齐团队和初创公司Timaeus的研究人员,共同创立了一个新的非营利组织Sequent。它的目标很明确:开发对齐技术,让人对超级智能AI系统有足够的安全信心。

Sequent认为,当前前沿AI实验室的对齐方法本质上是反应性的——虽然能跑,但缺乏对失败机制的原则性理解。他们计划从更根本的理论入手,研究方向包括可扩展监督、学习理论、启发式论证、博弈论和角色人格等。组织计划几年内达到40到80名全职员工,初始融资目标1到1.5亿美元,如果能证明多条研究路线并行可行,还会准备筹集更多。

就在研究者试图理解超级智能的同时,一批新的评测基准试图摸清当前AI能力的边界。

中国文化遗产测试:AI已超过人类 ChinaHeritaQA是一个多模态基准,用来评估视觉语言模型对中国联合国教科文组织世界遗产的文化推理能力。它包含2279张图片和14133个多项选择题,覆盖51个遗产地。人类平均准确率约67%,而最佳开源模型Qwen-VL-8B-Instruct达到了81%。换句话说,你现在用的AI助手在处理本地文化知识时,可能已经比普通人更准确。

编程基准:最高分仅13.4% 编码初创公司Cognition(Devin的制造者)发布了FrontierCode基准,包含150个任务,分Diamond、Main和Extended三个难度级别。评分标准不只认对错,还考察代码正确性、测试质量、范围纪律、风格和代码库标准。在最高难度的Diamond级别上,表现最好的Claude Opus 4.8只拿到13.4%,GPT-5.5和Claude Opus 4.7分别只有6.3%和5.2%。AI编程能力在复杂任务上仍有很大差距,短期内不会完全取代程序员。

科研助手基准:实习生水平 AARR(Act As a Real Researcher)基准系列评估AI辅助科学研究的能力,第一个基准是AARRI-Bench(研究实习生)。它包含82个任务,分为上下文、心态、动手、交互四类,难度分为适应、整合、创新三档。示例任务包括识别伪造数据、检测论文注入、审计消融实验完整性、拒绝篡改结果、识别死胡同和检查数据集下载链接。表现最好的Claude-Opus-4.7使用Mini-Swe-Agent框架得分68.3%,DeepSeek-v4-Flash约60%。AI可以完成一部分研究实习工作,但需要人类监督。

速度突破:每秒1000个token 小米发布了MiMo-V2.5-Pro-UltraSpeed模型,参数量1万亿,最大卖点是推理速度达1000 tokens/s,运行在8块GPU的商用节点上。它并非最前沿的大模型,但通过模型与软件栈协同设计——包括FP4量化、基于块级掩码并行预测的推测解码方法DFlash,以及TileRT软件——实现了远超同类模型的响应速度。这么一来,翻译、搜索甚至实时代码重构这类应用的响应会更流畅。

当AI在多个维度上加速进步,理解并控制它的风险就变得更加紧迫。Sequent的时间窗口取决于超级智能何时到来,而目前的评测表明,无论文化理解、编程还是科研辅助,AI都在快速追赶人类,但离真正可靠还有距离。

阅读原文

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部