社区讨论:多数开发者质疑该评测的门槛过高,128GB内存的MacBook Pro起售价达6699美元,高配版本更是近万美元,远超出普通开发者的硬件配置水平,这笔费用足够购买大量云服务API credits甚至一辆新车。有人指出在该笔记本上本地跑大模型会发烫噪音大,无法日常coding。也有普通配置用户提问,希望能推出适配中低端硬件、小参数量能良好支持工具调用的量化版本。
还有人提到Gemma4 31B体验也很好,只是比较被低估。
你打开一个网页,输入“写一首关于秋天的诗”,屏幕左右并排出现两个AI模型的回答,你比较后点击你认为更好的那个。这个动作看似简单,却是衡量AI模型水平的重要方式。
这个网站叫Arena,它的AI模型排行榜对公众免费开放。你输入一段提示,Arena随机发给两个模型,你来选哪个更好。这套机制起源于2023年加州大学伯克利分校的一个研究项目,由Anastasios Angelopoulos、Wei-Lin Chiang和Ion Stoica联合创立。到2025年4月,它正式注册为公司。
𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌
大模型API服务商调整定价,使用成本会随之变化,直接影响每次调用API的开销
这是2023年的旧讨论被重新挖出来,这一观点持续影响开源AI发展的监管方向
做本地大模型开发一直需要平衡性能和硬件需求,这个模型被开发者认为刚好卡在最合适的点上。
社区讨论:多数开发者质疑该评测的门槛过高,128GB内存的MacBook Pro起售价达6699美元,高配版本更是近万美元,远超出普通开发者的硬件配置水平,这笔费用足够购买大量云服务API credits甚至一辆新车。有人指出在该笔记本上本地跑大模型会发烫噪音大,无法日常coding。也有普通配置用户提问,希望能推出适配中低端硬件、小参数量能良好支持工具调用的量化版本。
还有人提到Gemma4 31B体验也很好,只是比较被低估。
这是一个针对自主编码任务设计的自脚手架大语言模型,可以省掉人工搭建框架的步骤
做编码相关工作的人,可以多一条免费自主迭代的开源工具路径
社区讨论:多数试用者认为这个通义千问微调的开源编码模型表现不错,能给出有创造性的编码方案,没人要求9-35B参数的模型一键生成完整应用。不少人质疑它只是堆基准分的换皮千问,有人实际测试发现它 bug 查找能力差,无工具对话时幻觉严重,长会话工具调用表现拉胯,甚至连声称的31B稠密模型都找不到权重和基准测试数据,还有开发者提到9B稠密版需要单张80GB显存GPU,普通用户根本用不了。
基于1.5T V9基础模型,补充训练加入了Cursor数据,已经在SpaceX和Tesla测试,早期评估性能接近甚至超过Opus
马斯克说他们的Grok 4.5,基于他们的的 1.5T V9 基础模型 并在补充训练中加入了 Cursor 数据 现已在 SpaceX 和 Tesla 进入早前测试阶段 早期评估显示性能接近 Opus,甚至可能已超过Opus
在前沿大模型逐步收紧访问权限的当下,有人推出打包订阅服务,一次就能用到多款可用的开放权重代码模型,按月付费即可。
Cline 刚刚发布了 ClinePass。
它将多款能力出众的开源权重编码模型打包在了一起:GLM 5.2、Kimi、DeepSeek、MiniMax、MiMo 和 Qwen。
按月固定费用即可访问。
时机把握得恰到好处,因为前沿模型现在都开始设置准入限制了。
它在OpenRouter上成了最受欢迎的模型,训练全程只用国产ASIC,没用到GPU,能力达到Gemini/Opus 4.6级别
在@OpenRouter 上最热门的模型(10万亿 tokens),竟然是来自@Meituan_LongCat 的 1.6万亿参数 MoE 模型。
Meituan 就是中国的超级应用/DoorDash。
这个模型水平基本达到 Gemini / Opus 级别,总共在 5万颗中国自研 ASIC 上训练了 35万亿 tokens。
全程不需要 GPU。
不用在不同平台来回切换,整理一堆API密钥就能直接使用多款最新开源权重模型,省了不少折腾的功夫
Cline这步做得很聪明。他们刚刚推出了ClinePass,让你可以轻松访问最新的开放权重模型,比如GLM 5.2、Kimi k2.7-code、Mimo 2.5、Deepseek v4 pro、Minimax M3等等。
不用同时管理一堆API密钥永远是件好事。
切换一个按钮就能分享完整的制作流程和提示词,方便展示自己完整的AI开发工作流,省去手动整理的步骤
不用复杂后台,只靠shell命令和SQLite数据库传话,输入一句/squad就能拉起一队AI分工完成编码任务
多个 AI agent 一起干活这事,终于有人用最土的办法做出来了。
squad,一个 Rust 写的命令行工具,让 Claude Code、Gemini CLI、Codex、OpenCode 这几个 CLI agent 直接坐一桌协作。
它的思路特别朴素,没有后台守护进程,全靠 shell 命令加一个 SQLite 数据库传话,每条命令都是一锤子买卖。
玩法也简单,三个终端各开一个:
1️⃣ manager 负责拆任务、派活
2️⃣ worker 负责接活、干活、回报
3️⃣ inspector 在旁边盯着
一句 /squad 就能拉起一整队 AI 帮你打工,多开同角色还会自动编号,worker、worker-2 排好队。
🔗
社交媒体曝光马斯克要求优化Grok的AI瓶颈
推出的Seedance 2.0 & 2.5支持50种全模态参考输入,还支持3D白模。做短视频剪辑的人可以试试新工作流
ByteDance 刚刚推出了 Seedance 2.0 和 2.5,可以一次性生成 30 秒的 4K 短片。
支持 50 种全模态参考输入,支持 3D 白模。
他们不只是在做视频模型。他们正在围绕它搭建一整个 IP 业务。
既有语义搜索,也有服务端全文搜索,适配需要从大量文档里找信息的AI智能体,帮智能体解决单一搜索不够用的问题
动态子智能体功能可以按需生成子任务代理,还能在拆分任务时保留已有上下文的缓存命中,已经整理出6种不同的应用场景
deepagents 推出动态子代理功能!它允许你通过编程快速启动子代理。我们为该功能列举了 6 种不同的用例。
这是一个围绕模型路由和子代理委派的巧妙设计,同时能保证所有代理累积的上下文都能命中缓存。
这个设计非常合理:你肯定也希望所有子代理都能使用缓存中已累积的上下文。
Sygaldry Technologies联合创始人兼CEO说量子技术可以给AI训练带来大幅速度提升,目前相关技术还在发展中
称不到半年就会有中国大模型能以更低成本匹配Mythos的性能,接下来行业会迎来新的成本压力
在开源这件事上,anthropic 是最邪恶的公司。
我们很可能用不了六个月,就会出现一款能力能匹敌 mythos,但价格低得多的中国模型。
所以下一波压力将不只来自更聪明的模型——还来自普通人确实用得起的强力模型。
业内人士确认这批芯片不是Ascend 950DT SuperPOD,没人说清美团到底用了什么硬件训练这个大模型。
哇哦,好了,来了。Owl Alpha。它是V4-scale模型,更新了DSA,加入了N-gram Embeddings,评测结果不错,「预训练在超过5万块AI ASIC……超算节点上」来自——我看一下笔记——美团。对哦。
这些显然不是Ascend 950DT SuperPOD(每个ASIC显存80GB)。他们到底用的是什么?!
现有大多数AI代理只在任务结束后判定成败,这次有人做了实时调整的新模型
大多数智能体都是在任务结束后才被评分。非过即败,要么解决要么放弃。
而 @GetCandidly 构建了不一样的东西:一个能在对话进行过程中读取内容,并实时引导向问题解决的模型。
完整故事:
已经开始向早期合作方推送,现在开放抢先体验申请,能帮AI开发者省下大笔错误检测成本
我们今日开始向早期合作伙伴推出 Trace Judge 模型。
该模型旨在检测智能体轨迹中的错误,成本仅为闭源模型的百分之一。
如果你对提前访问感兴趣,请填写下方表单报名:
现成的教程已经放出来了,想用语音AI的可以直接跟着操作
开发者Hamel Husain分享开启步骤,并给出了对该功能的第一使用体验
想要体验Cursor AI推出的全新远程开发+iOS功能,需要在两处手动开启设置。该功能的入口隐藏在文档中,Hamel Husain本人也摸索了较长时间。
第一步,进入网页端的个人控制台开启功能,开启入口链接为
第二步,打开Cursor客户端,进入代理视图,选择本地+远程模式即可。
Hamel Husain给出了自己的第一使用感受。该功能的完成度不如OpenAI Codex的远程功能,它没有整理显示不同进程分别运行在哪台机器上。
用户只能点击进入具体会话,才能查看进程的运行位置信息。
多数同类工具提供静态过时信息,这款工具会实时检索网络并分析当前信息
终于有一款真正能用的人物搜索工具了。
目前大多数人物搜索工具,只会给用户提供一份静态过时的信息列表。
@CLODOAI不同,它会检索实时网络,读取相关信息信号,给出目标人物当前的具体相关分析。
Omar Sar 在𝕏上点赞了该工具,同时@了开发相关的@sixtensor和@vikchuppala。
AI可快速生成常规应用代码,但Web3链上开发仍存诸多阻碍,Canopy推出AI原生基础设施降低门槛
介绍一套梳理美股研究维度的标准化工具流程
普通人研究美股,最容易卡在第一步:不知道该看什么 看 NVDA、TSLA、AAPL,不是只看财报 还要看估值、指引、同行、期权、分析师预期、新闻情绪 这个 Finance Skill,刚好把这些东西拆成了一套检查流程 财报前,看市场预期和历史 beat/miss。财报后,看 EPS、利润率、指引和价格反应。估值上,跑 DCF、相对估值和牛熊情景。
市场上,看同行相关性、期权收益图、Reddit / X / 新闻情绪。它不是喊单工具。更像是让 Claude Code 先帮你把一只股票该查的东西查完。
项目: 仅作工具分享,不构成投资建议。
博主将对比两款设备运行本地AI模型的实际表现,结果明日公布
M5 Max MacBook Pro 对决 NVIDIA DGX Spark。今天我要测试出哪一台才更适合运行本地 AI 模型。
一边是搭载统一内存的 Apple silicon。另一边是为 AI 打造的专用 NVIDIA 硬件。
这是对本地推理未来的两种完全不同的路线押注。测试结果将于明天公布。
切换一个按钮就能分享完整的制作流程和提示词,方便展示自己完整的AI开发工作流,省去手动整理的步骤
不用在不同平台来回切换,整理一堆API密钥就能直接使用多款最新开源权重模型,省了不少折腾的功夫
Cline这步做得很聪明。他们刚刚推出了ClinePass,让你可以轻松访问最新的开放权重模型,比如GLM 5.2、Kimi k2.7-code、Mimo 2.5、Deepseek v4 pro、Minimax M3等等。
不用同时管理一堆API密钥永远是件好事。
已经开始向早期合作方推送,现在开放抢先体验申请,能帮AI开发者省下大笔错误检测成本
我们今日开始向早期合作伙伴推出 Trace Judge 模型。
该模型旨在检测智能体轨迹中的错误,成本仅为闭源模型的百分之一。
如果你对提前访问感兴趣,请填写下方表单报名:
它在OpenRouter上成了最受欢迎的模型,训练全程只用国产ASIC,没用到GPU,能力达到Gemini/Opus 4.6级别
在@OpenRouter 上最热门的模型(10万亿 tokens),竟然是来自@Meituan_LongCat 的 1.6万亿参数 MoE 模型。
Meituan 就是中国的超级应用/DoorDash。
这个模型水平基本达到 Gemini / Opus 级别,总共在 5万颗中国自研 ASIC 上训练了 35万亿 tokens。
全程不需要 GPU。
在前沿大模型逐步收紧访问权限的当下,有人推出打包订阅服务,一次就能用到多款可用的开放权重代码模型,按月付费即可。
Cline 刚刚发布了 ClinePass。
它将多款能力出众的开源权重编码模型打包在了一起:GLM 5.2、Kimi、DeepSeek、MiniMax、MiMo 和 Qwen。
按月固定费用即可访问。
时机把握得恰到好处,因为前沿模型现在都开始设置准入限制了。
业内人士确认这批芯片不是Ascend 950DT SuperPOD,没人说清美团到底用了什么硬件训练这个大模型。
哇哦,好了,来了。Owl Alpha。它是V4-scale模型,更新了DSA,加入了N-gram Embeddings,评测结果不错,「预训练在超过5万块AI ASIC……超算节点上」来自——我看一下笔记——美团。对哦。
这些显然不是Ascend 950DT SuperPOD(每个ASIC显存80GB)。他们到底用的是什么?!
推出的Seedance 2.0 & 2.5支持50种全模态参考输入,还支持3D白模。做短视频剪辑的人可以试试新工作流
ByteDance 刚刚推出了 Seedance 2.0 和 2.5,可以一次性生成 30 秒的 4K 短片。
支持 50 种全模态参考输入,支持 3D 白模。
他们不只是在做视频模型。他们正在围绕它搭建一整个 IP 业务。
基于1.5T V9基础模型,补充训练加入了Cursor数据,已经在SpaceX和Tesla测试,早期评估性能接近甚至超过Opus
马斯克说他们的Grok 4.5,基于他们的的 1.5T V9 基础模型 并在补充训练中加入了 Cursor 数据 现已在 SpaceX 和 Tesla 进入早前测试阶段 早期评估显示性能接近 Opus,甚至可能已超过Opus
既有语义搜索,也有服务端全文搜索,适配需要从大量文档里找信息的AI智能体,帮智能体解决单一搜索不够用的问题
动态子智能体功能可以按需生成子任务代理,还能在拆分任务时保留已有上下文的缓存命中,已经整理出6种不同的应用场景
deepagents 推出动态子代理功能!它允许你通过编程快速启动子代理。我们为该功能列举了 6 种不同的用例。
这是一个围绕模型路由和子代理委派的巧妙设计,同时能保证所有代理累积的上下文都能命中缓存。
这个设计非常合理:你肯定也希望所有子代理都能使用缓存中已累积的上下文。
Sygaldry Technologies联合创始人兼CEO说量子技术可以给AI训练带来大幅速度提升,目前相关技术还在发展中
称不到半年就会有中国大模型能以更低成本匹配Mythos的性能,接下来行业会迎来新的成本压力
在开源这件事上,anthropic 是最邪恶的公司。
我们很可能用不了六个月,就会出现一款能力能匹敌 mythos,但价格低得多的中国模型。
所以下一波压力将不只来自更聪明的模型——还来自普通人确实用得起的强力模型。
做编码相关工作的人,可以多一条免费自主迭代的开源工具路径
社区讨论:多数试用者认为这个通义千问微调的开源编码模型表现不错,能给出有创造性的编码方案,没人要求9-35B参数的模型一键生成完整应用。不少人质疑它只是堆基准分的换皮千问,有人实际测试发现它 bug 查找能力差,无工具对话时幻觉严重,长会话工具调用表现拉胯,甚至连声称的31B稠密模型都找不到权重和基准测试数据,还有开发者提到9B稠密版需要单张80GB显存GPU,普通用户根本用不了。
这是一个针对自主编码任务设计的自脚手架大语言模型,可以省掉人工搭建框架的步骤
做本地大模型开发一直需要平衡性能和硬件需求,这个模型被开发者认为刚好卡在最合适的点上。
社区讨论:多数开发者质疑该评测的门槛过高,128GB内存的MacBook Pro起售价达6699美元,高配版本更是近万美元,远超出普通开发者的硬件配置水平,这笔费用足够购买大量云服务API credits甚至一辆新车。有人指出在该笔记本上本地跑大模型会发烫噪音大,无法日常coding。也有普通配置用户提问,希望能推出适配中低端硬件、小参数量能良好支持工具调用的量化版本。
还有人提到Gemma4 31B体验也很好,只是比较被低估。
这是2023年的旧讨论被重新挖出来,这一观点持续影响开源AI发展的监管方向
大模型API服务商调整定价,使用成本会随之变化,直接影响每次调用API的开销
现有大多数AI代理只在任务结束后判定成败,这次有人做了实时调整的新模型
大多数智能体都是在任务结束后才被评分。非过即败,要么解决要么放弃。
而 @GetCandidly 构建了不一样的东西:一个能在对话进行过程中读取内容,并实时引导向问题解决的模型。
完整故事:
不用复杂后台,只靠shell命令和SQLite数据库传话,输入一句/squad就能拉起一队AI分工完成编码任务
多个 AI agent 一起干活这事,终于有人用最土的办法做出来了。
squad,一个 Rust 写的命令行工具,让 Claude Code、Gemini CLI、Codex、OpenCode 这几个 CLI agent 直接坐一桌协作。
它的思路特别朴素,没有后台守护进程,全靠 shell 命令加一个 SQLite 数据库传话,每条命令都是一锤子买卖。
玩法也简单,三个终端各开一个:
1️⃣ manager 负责拆任务、派活
2️⃣ worker 负责接活、干活、回报
3️⃣ inspector 在旁边盯着
一句 /squad 就能拉起一整队 AI 帮你打工,多开同角色还会自动编号,worker、worker-2 排好队。
🔗
现成的教程已经放出来了,想用语音AI的可以直接跟着操作
社交媒体曝光马斯克要求优化Grok的AI瓶颈
博主将对比两款设备运行本地AI模型的实际表现,结果明日公布
M5 Max MacBook Pro 对决 NVIDIA DGX Spark。今天我要测试出哪一台才更适合运行本地 AI 模型。
一边是搭载统一内存的 Apple silicon。另一边是为 AI 打造的专用 NVIDIA 硬件。
这是对本地推理未来的两种完全不同的路线押注。测试结果将于明天公布。
介绍一套梳理美股研究维度的标准化工具流程
普通人研究美股,最容易卡在第一步:不知道该看什么 看 NVDA、TSLA、AAPL,不是只看财报 还要看估值、指引、同行、期权、分析师预期、新闻情绪 这个 Finance Skill,刚好把这些东西拆成了一套检查流程 财报前,看市场预期和历史 beat/miss。财报后,看 EPS、利润率、指引和价格反应。估值上,跑 DCF、相对估值和牛熊情景。
市场上,看同行相关性、期权收益图、Reddit / X / 新闻情绪。它不是喊单工具。更像是让 Claude Code 先帮你把一只股票该查的东西查完。
项目: 仅作工具分享,不构成投资建议。
AI可快速生成常规应用代码,但Web3链上开发仍存诸多阻碍,Canopy推出AI原生基础设施降低门槛
多数同类工具提供静态过时信息,这款工具会实时检索网络并分析当前信息
终于有一款真正能用的人物搜索工具了。
目前大多数人物搜索工具,只会给用户提供一份静态过时的信息列表。
@CLODOAI不同,它会检索实时网络,读取相关信息信号,给出目标人物当前的具体相关分析。
Omar Sar 在𝕏上点赞了该工具,同时@了开发相关的@sixtensor和@vikchuppala。
开发者Hamel Husain分享开启步骤,并给出了对该功能的第一使用体验
想要体验Cursor AI推出的全新远程开发+iOS功能,需要在两处手动开启设置。该功能的入口隐藏在文档中,Hamel Husain本人也摸索了较长时间。
第一步,进入网页端的个人控制台开启功能,开启入口链接为
第二步,打开Cursor客户端,进入代理视图,选择本地+远程模式即可。
Hamel Husain给出了自己的第一使用感受。该功能的完成度不如OpenAI Codex的远程功能,它没有整理显示不同进程分别运行在哪台机器上。
用户只能点击进入具体会话,才能查看进程的运行位置信息。
精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。