95K:GitHub 刚把 AI Agent 的开发边界往前推了一格。这个新开源的系统强制要求 AI 在写代码前必须先完成完整的规格说明(Specs)。几天内狂揽 95K Stars,最直接的后果是,AI 正在从“盲目写代码”转向“先思考再执行”。
当代码生成的逻辑链路被强制规范化,下一步被拿掉的人工环节,可能就是那层昂贵的代码审查(Code Review)。你觉得这种强制约束,是提升了代码质量,还是只是在给 AI 制造更高级的幻觉?
Google在今年的I/O大会上给搜索加了新能力:AI代理。你可以创建、定制、管理多个代理,让它们24小时在后台运行,盯着你关心的东西,不用每天重复搜。
这些代理不只会甩链接。它们能把多个来源的信息整合在一起,告诉你某件事为什么重要、不同的人怎么看、以及你能做什么。这算是2003年推出的Google Alerts的下一代版本,但远不止发通知。
用例很日常:盯某家公司的股价、监测航班价格、跟踪体育赛事和突发新闻、关注住房或就业市场、天气或交通。用法也简单——在搜索里打开AI模式,输一句提示就行。比如:“帮我盯着附近《曼达洛人与格鲁古》的电影票。”
来自 𝕏 的实时信号,经 AI 聚类分析
95K:GitHub 刚把 AI Agent 的开发边界往前推了一格。这个新开源的系统强制要求 AI 在写代码前必须先完成完整的规格说明(Specs)。几天内狂揽 95K Stars,最直接的后果是,AI 正在从“盲目写代码”转向“先思考再执行”。
当代码生成的逻辑链路被强制规范化,下一步被拿掉的人工环节,可能就是那层昂贵的代码审查(Code Review)。你觉得这种强制约束,是提升了代码质量,还是只是在给 AI 制造更高级的幻觉?
AI 代理终于能「真·操控」任何软件了!🔥 香港大学出品的 CLI-Anything 已斩获 35k+ Stars,瞬间爆火!你的 AI Agent 不再只会聊天,它能直接打开 Blender 建 3D 火星车、用 GIMP 专业修图、FreeCAD 设计机械、Kdenlive 剪视频、 画复杂流程…… 全部通过真实可靠的 CLI 命令完成!
核心亮点: - 一条命令就把任意 GUI/API 软件变成 Agent 原生 CLI(完美支持 Claude Code、Pi、OpenClaw 等) - 自动生成完整 CLI + 测试 + 文档,超 2280 个测试 100% 通过 - 真实软件驱动 + 结构化 JSON 输出,稳到爆 - CLI-Hub 一键安装:pip install cli-anything-hub 后 cli-hub install xxx 震撼 Demo:AI 用 FreeCAD/Blender 一步步造出火星车和无人机,还能实时预览; 自动生成带字幕的专业视频、玩卡牌游戏…… 真正的 Agent 时代来了,软件不再是人类的专属,而是 AI 的生产力工具。
微软刚刚发布了一款参数量为 40 亿的模型,可在 3 秒内将任意图像转换为带完整纹理的 3D 资产。输出 GLB 文件,包含完整的 PBR 纹理,可直接用于 Blender、Unity 和 Unreal。100% 开源。
3D 艺术家们今年过得不太容易。
.@cerebras 目前正在企业测试中以约每秒 1000 个 token 的速度运行 Kimi K2.6——当前领先的万亿参数开源模型。速度是次快 GPU 云的 6.7 倍,是 Claude Opus 的 10 倍,是 Gemini Flash 3.5(Google 最新推出的快速模型)的 3 倍。一项通常耗时 3 分钟的编程任务,在 Cerebras 上可在 6 秒内完成。
这正是晶圆级芯片(wafer scale)所要实现的目标。
Google 刚刚推出了其全新的 Gemini Omni Flash 模型。我们立即针对 Seedance 2.0 进行了并排测试。请在此查看真实的生成结果与对比。
📢很高兴分享我们的新论文:《Continuous Diffusion Scales Competitively with Discrete Diffusion for Language》(连续扩散在语言建模中可与离散扩散竞争性地扩展) 我们提出了 RePlaid 🌊,一种连续扩散语言模型(DLM),具备 🏅离散似然界 🏅扩展规律,性能可与当前最优(SOTA)的离散 DLM 相媲美。 如何实现?请深入阅读👇[🧵1/12] 论文链接: 本工作由我杰出的合作者共同完成:@WeiGuo01 @ShuibaiZ69721 @ssahoo_ @YongxinChen1 @ArashVahdat @MardaniMorteza @jwthickstun
字节跳动刚刚发布了一款名为 Lance 的开源模型——注意:它仅需 3B 活跃参数!🤯 它却能同时接收文本、图像和视频输入,并同步生成全部三类内容!简直令人难以置信!
我们推出 Nemotron-Labs-Diffusion —— 首个三模式语言模型系列(3B/8B/14B),仅需更改注意力模式/掩码,即可在 1⃣ 自回归、2⃣ 扩散和 3⃣ 自推测解码三种模式间切换。一个模型,三种解码模式。无需额外的草稿模型,无需架构改动。
仅通过此方式,即显著提升不同并发水平下的效率。单用户实际吞吐量最高可达 4 倍提升。🤗 Hugging Face 仓库:开源许可 🛜 项目主页: 📰 技术报告: 详情如下 👇
我们为此刻筹集了3000万美元。今天,我们推出Conversion Agents。这是首个由AI代理执行具体工作、而您的团队专注战略的营销平台。
我们称之为“氛围营销”(vibe marketing)。营销团队将50%以上的时间花费在单调重复的工作上。Conversion Agents可将这一比例降至5%。
一张图像 + 文本 + 相机轨迹 = 可控的世界。全部在单块 GPU 上运行。我们的研究团队刚刚发布了 SANA-WM,这是一个 2.6B 参数的开源世界模型,原生训练用于生成时长达 60 秒的视频,并支持精确的相机控制。
兄弟们注意了,GitHub 又出宝藏项目了—— hello-agents,直接冲上开源热榜第一,还在飙。这玩意儿把 AI Agent 从理论到实操全打包成一套开源课程, ①1️⃣ Agentic RL ②2️⃣ SFT ③3️⃣ GRPO 这些找高端 AI 岗必考的技能,全在里面。以前这些东西要么散得到处都是,要么得花钱买课。
现在?免费,还系统,不看你亏大了。
一些个人消息:我创立了一家新的 AI 安全标准机构,我们的前两项标准已于今日发布。我们名为 Guidelight,联合创始人是另一位前 OpenAI 安全研究员 Page Hedley。(1/n)
裁员警报:AI21 Labs 🚨 裁员110人,占员工总数的61%。一天之内,员工人数从180人降至70人。这并非一家名不见经传的初创公司。
其股东名单中包括Google和Nvidia。已融资5.75亿美元。这家以色列大语言模型实验室表示,销售语言模型“并非可持续的收入来源”,正转向AI智能体(AI agents)。
🚨我们的论文已发表于《美国国家科学院院刊》(PNAS):我们发现,经典的人类说服技巧以一种“类人”方式对人工智能起效,使其同意那些不当请求(依从率从35%提升至51%)。该方法在一系列主流大语言模型(LLM)上均有效,尽管较新的模型抵抗性更强。
没有陷阱;SAM3 是开源的,而且非常出色。它特别擅长物体跟踪,甚至在篮球比赛这样极其复杂的场景中也能表现优异。它可能是我迄今为止最喜欢的计算机视觉模型。
一家 AI 公司是否会失去对其自身智能体(agents)的控制?为探究这一问题,Anthropic、Google、Meta 和 OpenAI 允许我们:(1)使用思维链(CoT)访问权限测试其最佳内部模型;(2)审阅有关能力、对齐性(alignment)与控制机制的非公开信息。结果是:我们的首份《前沿风险报告》(Frontier Risk Report)。
尽管 AI 正在帮助我们应对重大挑战,但它也带来了新的潜在安全风险。正因如此,我们专注于构建保障更广泛生态系统安全的工具——例如 CodeMender,一款可自动发现并修复关键软件漏洞的代码安全代理。
虽然 Google AI Studio 是从提示词到应用的最快路径,但随着团队的发展,转向本地开发平台可帮助开发者实现更快的迭代。现在,您只需一键即可将 AI Studio 项目导出并导入 @Antigravity。
没有新模型发布的 Google I/O 就不算完整的 Google I/O。 来认识一下 Gemini 3.5 Flash:它为智能体(agents)和编程任务提供前沿性能,在复杂、长周期任务中表现出色,可立即交付真实世界价值;现已通过 Gemini API 在 Google AI Studio 中提供。
推出 Gemini API 的托管智能体(Managed Agents)——仅需一次 API 调用,即可获得一个由 Google 托管的远程 Linux 环境智能体,随时可扩展;您可用 Markdown 定义自定义指令、技能和工具。
// Code as Agent Harness // 一份超过 100 页的报告,涵盖与 agent harness 相关的所有内容。(建议收藏) 尤其值得注意的是,该综述汇总了 code as agent harness 的方法与应用。 本文有力地论证了 code-as-harness 或许正是推动我们前进的关键。
AI 模拟是科学领域的另一项强大工具,使我们能够理解并预测动态系统。这些模拟包括: 🌍 AlphaEarth Foundations,一个地球的“数字孪生”,有望帮助应对毁林和粮食安全等问题 🌧️ 我们最先进的
你现在可以在 AI Studio 中构建应用,直接与 Google Workspace 交互:启动可从 Google Sheets 拉取数据、整理 Google Drive、或处理团队文档的工具,全程无需离开 AI Studio。
SynthID(用于检测图像是否由 OpenAI 生成):
很多人学大模型,最容易遇到资料很全,但不知道怎么动手的情况。GitHub: 上海交大出品的 Dive into LLMs,是一个大模型实战教程库,覆盖从模型微调、部署、提示学习,到知识编辑、数学推理、多模态、GUI Agent、安全对齐等 11 个方向。每个主题都配了 PDF 课件、Markdown 教程和可运行的 Jupyter Notebook,不只是讲概念,而是能直接跟着跑实验。
内容包括:微调与部署、提示学习与思维链、知识编辑、数学推理、模型水印、越狱攻击、大模型隐写、多模态模型、GUI 智能体、智能体安全、基于 PPO 的 RLHF 安全对齐。比较适合两类人:一类是想系统补大模型实战链路的开发者,另一类是做研究、毕设、项目选题时,想快速切入某个具体方向的学生。
📢很高兴分享我们的新论文:《Continuous Diffusion Scales Competitively with Discrete Diffusion for Language》(连续扩散在语言建模中可与离散扩散竞争性地扩展) 我们提出了 RePlaid 🌊,一种连续扩散语言模型(DLM),具备 🏅离散似然界 🏅扩展规律,性能可与当前最优(SOTA)的离散 DLM 相媲美。 如何实现?请深入阅读👇[🧵1/12] 论文链接: 本工作由我杰出的合作者共同完成:@WeiGuo01 @ShuibaiZ69721 @ssahoo_ @YongxinChen1 @ArashVahdat @MardaniMorteza @jwthickstun
// Code as Agent Harness // 一份超过 100 页的报告,涵盖与 agent harness 相关的所有内容。(建议收藏) 尤其值得注意的是,该综述汇总了 code as agent harness 的方法与应用。 本文有力地论证了 code-as-harness 或许正是推动我们前进的关键。
一家 AI 公司是否会失去对其自身智能体(agents)的控制?为探究这一问题,Anthropic、Google、Meta 和 OpenAI 允许我们:(1)使用思维链(CoT)访问权限测试其最佳内部模型;(2)审阅有关能力、对齐性(alignment)与控制机制的非公开信息。结果是:我们的首份《前沿风险报告》(Frontier Risk Report)。
一张图像 + 文本 + 相机轨迹 = 可控的世界。全部在单块 GPU 上运行。我们的研究团队刚刚发布了 SANA-WM,这是一个 2.6B 参数的开源世界模型,原生训练用于生成时长达 60 秒的视频,并支持精确的相机控制。
我们为此刻筹集了3000万美元。今天,我们推出Conversion Agents。这是首个由AI代理执行具体工作、而您的团队专注战略的营销平台。
我们称之为“氛围营销”(vibe marketing)。营销团队将50%以上的时间花费在单调重复的工作上。Conversion Agents可将这一比例降至5%。
我们推出 Nemotron-Labs-Diffusion —— 首个三模式语言模型系列(3B/8B/14B),仅需更改注意力模式/掩码,即可在 1⃣ 自回归、2⃣ 扩散和 3⃣ 自推测解码三种模式间切换。一个模型,三种解码模式。无需额外的草稿模型,无需架构改动。
仅通过此方式,即显著提升不同并发水平下的效率。单用户实际吞吐量最高可达 4 倍提升。🤗 Hugging Face 仓库:开源许可 🛜 项目主页: 📰 技术报告: 详情如下 👇
字节跳动刚刚发布了一款名为 Lance 的开源模型——注意:它仅需 3B 活跃参数!🤯 它却能同时接收文本、图像和视频输入,并同步生成全部三类内容!简直令人难以置信!
你现在可以在 AI Studio 中构建应用,直接与 Google Workspace 交互:启动可从 Google Sheets 拉取数据、整理 Google Drive、或处理团队文档的工具,全程无需离开 AI Studio。
推出 Gemini API 的托管智能体(Managed Agents)——仅需一次 API 调用,即可获得一个由 Google 托管的远程 Linux 环境智能体,随时可扩展;您可用 Markdown 定义自定义指令、技能和工具。
没有新模型发布的 Google I/O 就不算完整的 Google I/O。 来认识一下 Gemini 3.5 Flash:它为智能体(agents)和编程任务提供前沿性能,在复杂、长周期任务中表现出色,可立即交付真实世界价值;现已通过 Gemini API 在 Google AI Studio 中提供。
虽然 Google AI Studio 是从提示词到应用的最快路径,但随着团队的发展,转向本地开发平台可帮助开发者实现更快的迭代。现在,您只需一键即可将 AI Studio 项目导出并导入 @Antigravity。
尽管 AI 正在帮助我们应对重大挑战,但它也带来了新的潜在安全风险。正因如此,我们专注于构建保障更广泛生态系统安全的工具——例如 CodeMender,一款可自动发现并修复关键软件漏洞的代码安全代理。
95K:GitHub 刚把 AI Agent 的开发边界往前推了一格。这个新开源的系统强制要求 AI 在写代码前必须先完成完整的规格说明(Specs)。几天内狂揽 95K Stars,最直接的后果是,AI 正在从“盲目写代码”转向“先思考再执行”。
当代码生成的逻辑链路被强制规范化,下一步被拿掉的人工环节,可能就是那层昂贵的代码审查(Code Review)。你觉得这种强制约束,是提升了代码质量,还是只是在给 AI 制造更高级的幻觉?
AI 代理终于能「真·操控」任何软件了!🔥 香港大学出品的 CLI-Anything 已斩获 35k+ Stars,瞬间爆火!你的 AI Agent 不再只会聊天,它能直接打开 Blender 建 3D 火星车、用 GIMP 专业修图、FreeCAD 设计机械、Kdenlive 剪视频、 画复杂流程…… 全部通过真实可靠的 CLI 命令完成!
核心亮点: - 一条命令就把任意 GUI/API 软件变成 Agent 原生 CLI(完美支持 Claude Code、Pi、OpenClaw 等) - 自动生成完整 CLI + 测试 + 文档,超 2280 个测试 100% 通过 - 真实软件驱动 + 结构化 JSON 输出,稳到爆 - CLI-Hub 一键安装:pip install cli-anything-hub 后 cli-hub install xxx 震撼 Demo:AI 用 FreeCAD/Blender 一步步造出火星车和无人机,还能实时预览; 自动生成带字幕的专业视频、玩卡牌游戏…… 真正的 Agent 时代来了,软件不再是人类的专属,而是 AI 的生产力工具。
微软刚刚发布了一款参数量为 40 亿的模型,可在 3 秒内将任意图像转换为带完整纹理的 3D 资产。输出 GLB 文件,包含完整的 PBR 纹理,可直接用于 Blender、Unity 和 Unreal。100% 开源。
3D 艺术家们今年过得不太容易。
.@cerebras 目前正在企业测试中以约每秒 1000 个 token 的速度运行 Kimi K2.6——当前领先的万亿参数开源模型。速度是次快 GPU 云的 6.7 倍,是 Claude Opus 的 10 倍,是 Gemini Flash 3.5(Google 最新推出的快速模型)的 3 倍。一项通常耗时 3 分钟的编程任务,在 Cerebras 上可在 6 秒内完成。
这正是晶圆级芯片(wafer scale)所要实现的目标。
Google 刚刚推出了其全新的 Gemini Omni Flash 模型。我们立即针对 Seedance 2.0 进行了并排测试。请在此查看真实的生成结果与对比。
AI 模拟是科学领域的另一项强大工具,使我们能够理解并预测动态系统。这些模拟包括: 🌍 AlphaEarth Foundations,一个地球的“数字孪生”,有望帮助应对毁林和粮食安全等问题 🌧️ 我们最先进的
一些个人消息:我创立了一家新的 AI 安全标准机构,我们的前两项标准已于今日发布。我们名为 Guidelight,联合创始人是另一位前 OpenAI 安全研究员 Page Hedley。(1/n)
裁员警报:AI21 Labs 🚨 裁员110人,占员工总数的61%。一天之内,员工人数从180人降至70人。这并非一家名不见经传的初创公司。
其股东名单中包括Google和Nvidia。已融资5.75亿美元。这家以色列大语言模型实验室表示,销售语言模型“并非可持续的收入来源”,正转向AI智能体(AI agents)。
🚨我们的论文已发表于《美国国家科学院院刊》(PNAS):我们发现,经典的人类说服技巧以一种“类人”方式对人工智能起效,使其同意那些不当请求(依从率从35%提升至51%)。该方法在一系列主流大语言模型(LLM)上均有效,尽管较新的模型抵抗性更强。
没有陷阱;SAM3 是开源的,而且非常出色。它特别擅长物体跟踪,甚至在篮球比赛这样极其复杂的场景中也能表现优异。它可能是我迄今为止最喜欢的计算机视觉模型。
兄弟们注意了,GitHub 又出宝藏项目了—— hello-agents,直接冲上开源热榜第一,还在飙。这玩意儿把 AI Agent 从理论到实操全打包成一套开源课程, ①1️⃣ Agentic RL ②2️⃣ SFT ③3️⃣ GRPO 这些找高端 AI 岗必考的技能,全在里面。以前这些东西要么散得到处都是,要么得花钱买课。
现在?免费,还系统,不看你亏大了。
很多人学大模型,最容易遇到资料很全,但不知道怎么动手的情况。GitHub: 上海交大出品的 Dive into LLMs,是一个大模型实战教程库,覆盖从模型微调、部署、提示学习,到知识编辑、数学推理、多模态、GUI Agent、安全对齐等 11 个方向。每个主题都配了 PDF 课件、Markdown 教程和可运行的 Jupyter Notebook,不只是讲概念,而是能直接跟着跑实验。
内容包括:微调与部署、提示学习与思维链、知识编辑、数学推理、模型水印、越狱攻击、大模型隐写、多模态模型、GUI 智能体、智能体安全、基于 PPO 的 RLHF 安全对齐。比较适合两类人:一类是想系统补大模型实战链路的开发者,另一类是做研究、毕设、项目选题时,想快速切入某个具体方向的学生。
SynthID(用于检测图像是否由 OpenAI 生成):
精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。