Claude Code 子代理现在最多支持嵌套 5 层深度,已经有人完整跑通了整条链。
每一层都在自己的上下文窗口中运行。
只有顶层的摘要会返回给主代理,5层深度是硬性上限。
三星电子向韩国所有员工及全球DX部门员工提供ChatGPT Enterprise和Codex。这是OpenAI迄今为止最大的企业部署之一。
三星计划在研发、制造、营销、企业职能等所有业务领域使用这两款工具。员工可以用ChatGPT处理报告、营销文案,用Codex把想法变成可运行的软件、内部工具、网站和自动化工作流。普通员工也能在核心业务流程中直接受益,不再只是技术人员的专属。
𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌
每一层都有独立的上下文窗口,只有顶层的结果会返回给主程序,五层是目前的硬性上限。
Claude Code 子代理现在最多支持嵌套 5 层深度,已经有人完整跑通了整条链。
每一层都在自己的上下文窗口中运行。
只有顶层的摘要会返回给主代理,5层深度是硬性上限。
开发者已经留意到这款大模型更新,目前还没拿到公开测试的资格。
Together AI和5C正在部署NVIDIA GB300 NVL72系统,专为大规模AI推理和推理任务配置。
下一代推理需要专为特定用途打造的基础设施。
Together AI 和 5C 正在部署 NVIDIA GB300 NVL72 系统,该系统配备高密度计算、先进散热方案,以及面向 AI 优化的存储,适用于大规模推理和思考。
有人在优化智能代理的工作中发现,混合不同模型的集成方法效果优于其他所有方案,2026年可能会出现更多这类推理路由模型。
看到通过开放+闭源模型融合构建的神话级模型在编排中正常工作,太震撼了。
我在2025年末研究智能体优化时就见过这种场景,当时LLM集成方案的表现碾压了其他所有方案。
我认为我们会在2026年看到更多推理路由模型。
社交平台用户推测Meta下一款大语言模型为协作办公LLM
业内人士预测2030年所有企业都将配备企业大脑
到2030年,公司没有「公司大脑」会变得和现在没有生产数据库一样荒谬。每家公司都会为智能体维护单一可信数据源,事后看来这会是一件理所当然的事。
我们相信,每家公司都理应拥有自己的大脑,不需要投入庞大的工程师团队从零搭建。这就是我们创立@hyperspell的原因:为每家公司打造大脑。
Sakana AI发布Fugu,认为协同编排是AI下一前沿,保障AI主权
不同大模型之间的性能差距再次拉大,目前领先模型的优势已经非常明显
它确认该工具不绑定特定模型,是通用工具。
原本需要设计师、动效师和前端开发者协作数周的工作,现在AI一次会话就能完成,成本和时间都大幅降低。
一次AI会话生成出了价值35,000美元级别的网站。
一个看上去就是高级代理商做的落地页,通过Claude Code和Higgsfield从头到尾完整生成了。整个站点的体验是电影级产品体验,而非静态网页。
这套系统产出了什么:
→ 自动生成了完全由滚动驱动的动画布局
→ 从多个生成式视频模型提取动态片段
→ 无需手动设置,自动添加了颗粒、粒子、暗角、玻璃卡片和调色等效果
→ 不需要编写关键帧动画,就生成了滚动行为和节奏
常规情况下制作它需要什么:
→ 设计师、动态艺术家和前端开发协作完成
→ 数周的协调和迭代工作
→ 需要手动对接多个工具来处理滚动、动画和素材
成本差异才是关键转变:
→ 传统代理商建站价格在6,000到35,000美元之间
→ 普通制作项目的成本通常都在5,000美元以上
→ AI生成版本只需要订阅费加少量积分消耗
→ 交付时间从数周缩短到一次会话完成。
研究者提出AI安全关键问题,团队正推进相关研发
人工智能安全领域最重要的问题,同时也是能让RSI彻底爆发的最大解锁项,就是将鲁棒模型行为评估的科学体系形式化并自动化。
优化器和架构都是很棒的吸引人消遣,RSI肯定也能找出一些漂亮的调整,但真正的大杠杆是评估、数据和内核。而数据和内核本质上都是评估问题,所以说到底其实就只有评估。加上把该死的GPU部署上线。
在@primeintellect,我们正努力为大众规模化扩展评估能力和GPU资源,来加入我们吧。
开发者发布开源PDF转Markdown解析器LiteParse v2.1,速度精度领先
我们打造了世界上最快的 PDF 转 markdown 解析器 🚀⚡️ 而且在三项标准化基准测试(olmOCR0-bench、opendataloader-bench、ParseBench)中,它的准确率比所有其他开源无模型解析器(pymupdf4llm、opendataloader、pdf-inspector、markitdown)都更高。
现在为你介绍 LiteParse v2.1。v2 基础版已经是全球最快的文档转文本解析器,而在本次新版本中我们加入了 markdown 支持。
它完全开源(Apache 2.0 协议)且免费,可通过 CLI/Rust/Node/Python/WASM 使用,还能作为一键式代理技能安装。
快来体验 LiteParse:
以下是我们的准确率基准测试结果
以下是我们的速度测试结果
这是一位创作者在社交平台给出的个人判断。参数规模270亿的开源大模型,性能已经被不少从业者看好。
创作者拍完素材后,把所有剪辑工作交给AI完成,明天会放出最终成品。
去中心化推理指把AI计算任务分散到多个独立节点完成,而非集中在少数大型数据中心。
强化学习(RLM)是一种让AI通过试错反馈优化决策的训练方法。
投行预计今年这类杠杆贷款会发行约150亿美元,数据中心赛道的融资玩法开始变了。
来源:Morgan Stanley 正游说数据中心开发商使用杠杆贷款而非债券,并估计今年这类贷款的发行规模将达到约 150 亿美元(出自 The Information)
(前往 Techmeme dot com 获取链接和完整上下文!)
刚入坑本地大模型的人容易踩坑,现有SOTA模型的网页搜索结果不靠谱,得专门调整提示词才能拿到合格结果。
根据自己的硬件选推荐的量化格式,就能最大化本地AI的运行速度和性能
针对本地AI格式推荐的量化规格:
- MLX(Mac):6bit+
- NVFP4(Nvidia):4bit
- GGUF(Llama.cpp):4bit+
- DQ(通用):混合 3bit+
请使用适配你硬件的最优优化格式,以最大化速度和性能。
想要处理AI和教育的关系需要更精细的方案,一刀切禁令不是精细选择,为防止学术下滑禁止年轻人接触AI,可能反而造成国家发展下滑。
我们需要一种精细平衡的方法来处理 AI 与教育的关系,但禁令绝非精细平衡。
如果你禁止最年轻的公民接触他们这代人标志性的技术,你原本想要阻止学术滑坡,结果却很容易因此造成国家衰退。
已经处于监管环境下的企业,反过来呼吁全行业加强AI监管。这件事本身值得观察
作者分享使用AI多任务的体验,提出专注单任务更高效
我一直觉得ai可以让我同时做多件事情, 但实际上我脑子线程是十分有限的, ai确实是干活快,但很多事一起进行时,我要不停的切换我的思维去审核ai产出的每一条结果,这反而会严重分散我的注意力,根本没有提高效率。 所以不如专注高效的去做好一件事,再开始下一个。
Sakana发布类单模型运行的多智能体编排产品,评测表现出色
Sakana 在本周初发布了 AI 公告!多智能体编排可以表现得像单个模型一样,而且……性能超过了 Fable!?
对于一个非前沿实验室来说,这些评测结果有点疯狂(现在它算前沿了?)
有观点提到,头部AI实验室没办法停下来放缓研发速度,为了保住商业模式只能持续训练更大的模型
它们谁都承担不起暂停或放缓发展的代价。只需看看GLM-5.2的能力就能证明这一点。
为了保护自身商业模式,前沿实验室必须不断训练能力越来越强的系统,才能在开源面前、在彼此竞争中保持领先。
冰面之下,水流仍在汹涌奔涌,我们也在继续朝着终点冲刺。
GLM 5.2在编码基准测试中表现超过GPT-5.5。
公布的基准测试结果显示,在聚焦编码的测评中,GLM 5.2的性能提升明显高于GPT-5.5。核心结果包括:SWE-bench Pro得分为62.1,GPT-5.5为58.6;Terminal-Bench 2.1得分为81.0;FrontierSWE得分为74.4%,这让它跻身顶级编码模型行列。
他确认现在AI几乎写完了所有代码,人类工程师只需要做收尾工作
🚨 我去?!Anthropic CEO Dario Amodei随口承认,他自己的公司正在用AI取代人类软件工程师。
他确认,现在几乎所有代码都由AI编写,让人类员工彻底被淘汰。科技精英们是在故意摧毁工人阶级!
录30条带提示的语音样本,用LoRA(低秩适配微调技术)微调模型,合并声纹检查点,最后本地部署运行
我训练了一个本地 TTS 模型,克隆了自己的声音。整个流程简单得出人意料:
→录制 30 条带提示的语音样本 → 用 LoRA 微调 MOSS-TTS → 合并语音检查点 → 在本地以兼容 OpenAI 的 TTS API 形式部署 → 在任何需要配音的地方使用我的声音。
真正的测试是给我妻子发了一段配音。
她的回复是:「这完完全全就是你的声音。」
Model:按照这些简单步骤就能克隆你的声音。你需要给智能体提供你自己的声音。
请在下方分享你的体验,或者任何问题/意见。
每个国家都想让自己的AI占据主导,输出自身意识形态。美国现在封闭模型领先,但没人用的话优势也不大
闭源实验室称开源项目能做起来全靠偷自家内部代码和文档,有网友吐槽这是新的找借口套路
把机器学习模型从一个框架转到另一个框架,不只是改改语法那么简单
将生产级机器学习模型从一个框架迁移到另一个框架,并不是简单更新语法就能完成的事。
请阅读下文,了解我们如何部署专用多智能体AI系统,将Google部分规模最大的生产模型从TF迁移到JAX ↓
生成的核可以无量化无剪枝全速运行DeepSeek-v4,直接优化GLM-5.2的本地部署服务
从我第一次告诉大家GLM-5.2的能力(而且你们听进去了)至今,已经过去5天了。
现在GLM-5.2正在为DGX Spark生成自定义CUDA内核,让它能够全速运行DeepSeek-v4,无需量化或剪枝。
这直接转化为了GLM-5.2的优化本地化部署服务。
有人觉得现有关于大模型创造力的说法太绝对。虽然大模型确实很少产生真正全新的想法,但目前没有数学能证明它完全做不到。
专门开发的AI机器人,已经能在国际乒联官方规则下战胜职业运动员,普通人可以看看AI在体育领域的推进速度
需要搭建智能体强化学习技术栈,可以从这份现成的工具清单入手找适配工具
适用于智能体强化学习(Agent RL)技术栈的 10 款开源工具 ↓
- OpenPipe ART
- verl-agent
- Agent Lightning
- Unsloth
- OpenRLHF
- SkyRL
- NVIDIA’s Polar
- Agent-R1
- RAGEN
- Marti
收藏这份清单,点击这里获取链接、用例,以及各工具在 Agent RL 技术栈中的定位 →
社区出了教程,教你用Deep Agents搭建类似Claude Code的智能代理,GLM-5.2效果不错,刚好可以试试
「用 Deep Agents 打造你自己的 Claude Code」
这是社区作者写的一篇好文章,展示了如何用 Deep Agents 构建一个类似 Claude Code 的智能体。
考虑到 GLM-5.2 目前表现相当强劲,这篇文章尤其具有参考意义。
从二月到六月,连续更新换代的多款闭源 coding AI里,只有开源权重的GLM最终留了下来
自二月以来我主力使用的编码模型:
Opus 4.6:2月5日
GPT-5.4:3月5日
Opus 4.7:4月16日
GPT-5.5:4月23日
Opus 4.8:5月28日
Fable 5:6月9日(6月12日停服)🪦
GLM-5.2(开放权重):6月16日
说实话,这个开源开放权重的模型意义重大。
英国情报机构GCHQ和AI安全机构AISI合作,目前最让GCHQ睡不着觉的AI安全问题,是间接提示注入攻击
做数据清洗和生成合成数据时,记住「模型自回归训练」这个基础知识点很重要,很多人会忽略这点。
有人用智谱AI的GLM-5.2一次生成完整站点,它回答生物医学问题的水平接近部分高阶GPT模型,大小控制得很不错。
我用 @Zai_org 的 GLM-5.2 一次性就做出了这个关于《教父》系列电影的网站!
它对生物医学问题的输出质量也非常出色,虽然还没到 GPT-5.5 的水平,但部分回答已经接近 5.2–5.4 层级。
考虑到这个模型的尺寸,能做到这样已经非常了不起了!
有证据显示,AI驱动的技能退化已经在医学、计算机科学等领域发生。从业者能提前观察到自身技能的变化。
相同硬件换对推理软件,大模型输出token速度能翻数倍,多卡CUDA选对软件提速更明显。
为什么我要聚焦于适配你硬件的推理引擎/软件栈?
两块RTX 3090:原本约14.5 tok/s,迁移到TP=2的vLLM后可达约64 tok/s。
RTX PRO 6000:原本约32 tok/s,迁移到Sglang后可达约110 tok/s。
因此结论是:
CUDA/2块及以上GPU:ExLlamaV3/vLLM/Sglang > llama.cpp
边缘设备:llama.cpp > Ollama
内部分歧导致同时推进太多方向,人才正在持续流出,战略方向不统一会拖慢AI产品落地进度
我认为 google 现在处境很艰难。问题在于,google 内部有一些团队认为 LLMs 是未来,另一些团队却不这么想,所以他们同时在推进太多项目。
openai 也遇到过同样的问题,但当它开始落后于 anthropic 时,它砍掉了其他项目,重新聚焦核心。
google 还没有完成重新聚焦——这让 openai 和 anthropic 看起来方向更一致,这可能也是知名人士接连离开的原因。
博主称多数人终生用不到积分,统计对决策更重要
20M参数Transformer验证,无层级结构噪声残差仍可实现预测
你们知道吗?next-residual-prediction 居然能生效,哪怕残差「编码」本身就是带噪向量,在每一层都没有内禀结构?
实验用了 20M 参数的 transformer,256 个视觉 patch。(虚线代表「预填充」点,我从这里开始,输入重建结果的前几个 patch)
你可以靠直觉这么理解:它用另一种方式,呈现了渐进去噪的扩散直觉。每个向量本身都带噪声,但累积求和会一步步把你拉向低维数据流形的潜在结构。
研究者提出通用AI智能体时代数字孪生可结合科学方法
投行预计今年这类杠杆贷款会发行约150亿美元,数据中心赛道的融资玩法开始变了。
来源:Morgan Stanley 正游说数据中心开发商使用杠杆贷款而非债券,并估计今年这类贷款的发行规模将达到约 150 亿美元(出自 The Information)
(前往 Techmeme dot com 获取链接和完整上下文!)
这是一位创作者在社交平台给出的个人判断。参数规模270亿的开源大模型,性能已经被不少从业者看好。
每一层都有独立的上下文窗口,只有顶层的结果会返回给主程序,五层是目前的硬性上限。
Claude Code 子代理现在最多支持嵌套 5 层深度,已经有人完整跑通了整条链。
每一层都在自己的上下文窗口中运行。
只有顶层的摘要会返回给主代理,5层深度是硬性上限。
创作者拍完素材后,把所有剪辑工作交给AI完成,明天会放出最终成品。
去中心化推理指把AI计算任务分散到多个独立节点完成,而非集中在少数大型数据中心。
开发者已经留意到这款大模型更新,目前还没拿到公开测试的资格。
强化学习(RLM)是一种让AI通过试错反馈优化决策的训练方法。
原本需要设计师、动效师和前端开发者协作数周的工作,现在AI一次会话就能完成,成本和时间都大幅降低。
一次AI会话生成出了价值35,000美元级别的网站。
一个看上去就是高级代理商做的落地页,通过Claude Code和Higgsfield从头到尾完整生成了。整个站点的体验是电影级产品体验,而非静态网页。
这套系统产出了什么:
→ 自动生成了完全由滚动驱动的动画布局
→ 从多个生成式视频模型提取动态片段
→ 无需手动设置,自动添加了颗粒、粒子、暗角、玻璃卡片和调色等效果
→ 不需要编写关键帧动画,就生成了滚动行为和节奏
常规情况下制作它需要什么:
→ 设计师、动态艺术家和前端开发协作完成
→ 数周的协调和迭代工作
→ 需要手动对接多个工具来处理滚动、动画和素材
成本差异才是关键转变:
→ 传统代理商建站价格在6,000到35,000美元之间
→ 普通制作项目的成本通常都在5,000美元以上
→ AI生成版本只需要订阅费加少量积分消耗
→ 交付时间从数周缩短到一次会话完成。
有证据显示,AI驱动的技能退化已经在医学、计算机科学等领域发生。从业者能提前观察到自身技能的变化。
英国情报机构GCHQ和AI安全机构AISI合作,目前最让GCHQ睡不着觉的AI安全问题,是间接提示注入攻击
专门开发的AI机器人,已经能在国际乒联官方规则下战胜职业运动员,普通人可以看看AI在体育领域的推进速度
有观点提到,头部AI实验室没办法停下来放缓研发速度,为了保住商业模式只能持续训练更大的模型
它们谁都承担不起暂停或放缓发展的代价。只需看看GLM-5.2的能力就能证明这一点。
为了保护自身商业模式,前沿实验室必须不断训练能力越来越强的系统,才能在开源面前、在彼此竞争中保持领先。
冰面之下,水流仍在汹涌奔涌,我们也在继续朝着终点冲刺。
GLM 5.2在编码基准测试中表现超过GPT-5.5。
公布的基准测试结果显示,在聚焦编码的测评中,GLM 5.2的性能提升明显高于GPT-5.5。核心结果包括:SWE-bench Pro得分为62.1,GPT-5.5为58.6;Terminal-Bench 2.1得分为81.0;FrontierSWE得分为74.4%,这让它跻身顶级编码模型行列。
他确认现在AI几乎写完了所有代码,人类工程师只需要做收尾工作
🚨 我去?!Anthropic CEO Dario Amodei随口承认,他自己的公司正在用AI取代人类软件工程师。
他确认,现在几乎所有代码都由AI编写,让人类员工彻底被淘汰。科技精英们是在故意摧毁工人阶级!
录30条带提示的语音样本,用LoRA(低秩适配微调技术)微调模型,合并声纹检查点,最后本地部署运行
我训练了一个本地 TTS 模型,克隆了自己的声音。整个流程简单得出人意料:
→录制 30 条带提示的语音样本 → 用 LoRA 微调 MOSS-TTS → 合并语音检查点 → 在本地以兼容 OpenAI 的 TTS API 形式部署 → 在任何需要配音的地方使用我的声音。
真正的测试是给我妻子发了一段配音。
她的回复是:「这完完全全就是你的声音。」
Model:按照这些简单步骤就能克隆你的声音。你需要给智能体提供你自己的声音。
请在下方分享你的体验,或者任何问题/意见。
每个国家都想让自己的AI占据主导,输出自身意识形态。美国现在封闭模型领先,但没人用的话优势也不大
闭源实验室称开源项目能做起来全靠偷自家内部代码和文档,有网友吐槽这是新的找借口套路
把机器学习模型从一个框架转到另一个框架,不只是改改语法那么简单
将生产级机器学习模型从一个框架迁移到另一个框架,并不是简单更新语法就能完成的事。
请阅读下文,了解我们如何部署专用多智能体AI系统,将Google部分规模最大的生产模型从TF迁移到JAX ↓
已经处于监管环境下的企业,反过来呼吁全行业加强AI监管。这件事本身值得观察
想要处理AI和教育的关系需要更精细的方案,一刀切禁令不是精细选择,为防止学术下滑禁止年轻人接触AI,可能反而造成国家发展下滑。
我们需要一种精细平衡的方法来处理 AI 与教育的关系,但禁令绝非精细平衡。
如果你禁止最年轻的公民接触他们这代人标志性的技术,你原本想要阻止学术滑坡,结果却很容易因此造成国家衰退。
内部分歧导致同时推进太多方向,人才正在持续流出,战略方向不统一会拖慢AI产品落地进度
我认为 google 现在处境很艰难。问题在于,google 内部有一些团队认为 LLMs 是未来,另一些团队却不这么想,所以他们同时在推进太多项目。
openai 也遇到过同样的问题,但当它开始落后于 anthropic 时,它砍掉了其他项目,重新聚焦核心。
google 还没有完成重新聚焦——这让 openai 和 anthropic 看起来方向更一致,这可能也是知名人士接连离开的原因。
做数据清洗和生成合成数据时,记住「模型自回归训练」这个基础知识点很重要,很多人会忽略这点。
它确认该工具不绑定特定模型,是通用工具。
有人觉得现有关于大模型创造力的说法太绝对。虽然大模型确实很少产生真正全新的想法,但目前没有数学能证明它完全做不到。
有人在优化智能代理的工作中发现,混合不同模型的集成方法效果优于其他所有方案,2026年可能会出现更多这类推理路由模型。
看到通过开放+闭源模型融合构建的神话级模型在编排中正常工作,太震撼了。
我在2025年末研究智能体优化时就见过这种场景,当时LLM集成方案的表现碾压了其他所有方案。
我认为我们会在2026年看到更多推理路由模型。
刚入坑本地大模型的人容易踩坑,现有SOTA模型的网页搜索结果不靠谱,得专门调整提示词才能拿到合格结果。
相同硬件换对推理软件,大模型输出token速度能翻数倍,多卡CUDA选对软件提速更明显。
为什么我要聚焦于适配你硬件的推理引擎/软件栈?
两块RTX 3090:原本约14.5 tok/s,迁移到TP=2的vLLM后可达约64 tok/s。
RTX PRO 6000:原本约32 tok/s,迁移到Sglang后可达约110 tok/s。
因此结论是:
CUDA/2块及以上GPU:ExLlamaV3/vLLM/Sglang > llama.cpp
边缘设备:llama.cpp > Ollama
有人用智谱AI的GLM-5.2一次生成完整站点,它回答生物医学问题的水平接近部分高阶GPT模型,大小控制得很不错。
我用 @Zai_org 的 GLM-5.2 一次性就做出了这个关于《教父》系列电影的网站!
它对生物医学问题的输出质量也非常出色,虽然还没到 GPT-5.5 的水平,但部分回答已经接近 5.2–5.4 层级。
考虑到这个模型的尺寸,能做到这样已经非常了不起了!
从二月到六月,连续更新换代的多款闭源 coding AI里,只有开源权重的GLM最终留了下来
自二月以来我主力使用的编码模型:
Opus 4.6:2月5日
GPT-5.4:3月5日
Opus 4.7:4月16日
GPT-5.5:4月23日
Opus 4.8:5月28日
Fable 5:6月9日(6月12日停服)🪦
GLM-5.2(开放权重):6月16日
说实话,这个开源开放权重的模型意义重大。
生成的核可以无量化无剪枝全速运行DeepSeek-v4,直接优化GLM-5.2的本地部署服务
从我第一次告诉大家GLM-5.2的能力(而且你们听进去了)至今,已经过去5天了。
现在GLM-5.2正在为DGX Spark生成自定义CUDA内核,让它能够全速运行DeepSeek-v4,无需量化或剪枝。
这直接转化为了GLM-5.2的优化本地化部署服务。
根据自己的硬件选推荐的量化格式,就能最大化本地AI的运行速度和性能
针对本地AI格式推荐的量化规格:
- MLX(Mac):6bit+
- NVFP4(Nvidia):4bit
- GGUF(Llama.cpp):4bit+
- DQ(通用):混合 3bit+
请使用适配你硬件的最优优化格式,以最大化速度和性能。
社区出了教程,教你用Deep Agents搭建类似Claude Code的智能代理,GLM-5.2效果不错,刚好可以试试
「用 Deep Agents 打造你自己的 Claude Code」
这是社区作者写的一篇好文章,展示了如何用 Deep Agents 构建一个类似 Claude Code 的智能体。
考虑到 GLM-5.2 目前表现相当强劲,这篇文章尤其具有参考意义。
不同大模型之间的性能差距再次拉大,目前领先模型的优势已经非常明显
Together AI和5C正在部署NVIDIA GB300 NVL72系统,专为大规模AI推理和推理任务配置。
下一代推理需要专为特定用途打造的基础设施。
Together AI 和 5C 正在部署 NVIDIA GB300 NVL72 系统,该系统配备高密度计算、先进散热方案,以及面向 AI 优化的存储,适用于大规模推理和思考。
需要搭建智能体强化学习技术栈,可以从这份现成的工具清单入手找适配工具
适用于智能体强化学习(Agent RL)技术栈的 10 款开源工具 ↓
- OpenPipe ART
- verl-agent
- Agent Lightning
- Unsloth
- OpenRLHF
- SkyRL
- NVIDIA’s Polar
- Agent-R1
- RAGEN
- Marti
收藏这份清单,点击这里获取链接、用例,以及各工具在 Agent RL 技术栈中的定位 →
开发者发布开源PDF转Markdown解析器LiteParse v2.1,速度精度领先
我们打造了世界上最快的 PDF 转 markdown 解析器 🚀⚡️ 而且在三项标准化基准测试(olmOCR0-bench、opendataloader-bench、ParseBench)中,它的准确率比所有其他开源无模型解析器(pymupdf4llm、opendataloader、pdf-inspector、markitdown)都更高。
现在为你介绍 LiteParse v2.1。v2 基础版已经是全球最快的文档转文本解析器,而在本次新版本中我们加入了 markdown 支持。
它完全开源(Apache 2.0 协议)且免费,可通过 CLI/Rust/Node/Python/WASM 使用,还能作为一键式代理技能安装。
快来体验 LiteParse:
以下是我们的准确率基准测试结果
以下是我们的速度测试结果
研究者提出AI安全关键问题,团队正推进相关研发
人工智能安全领域最重要的问题,同时也是能让RSI彻底爆发的最大解锁项,就是将鲁棒模型行为评估的科学体系形式化并自动化。
优化器和架构都是很棒的吸引人消遣,RSI肯定也能找出一些漂亮的调整,但真正的大杠杆是评估、数据和内核。而数据和内核本质上都是评估问题,所以说到底其实就只有评估。加上把该死的GPU部署上线。
在@primeintellect,我们正努力为大众规模化扩展评估能力和GPU资源,来加入我们吧。
研究者提出通用AI智能体时代数字孪生可结合科学方法
20M参数Transformer验证,无层级结构噪声残差仍可实现预测
你们知道吗?next-residual-prediction 居然能生效,哪怕残差「编码」本身就是带噪向量,在每一层都没有内禀结构?
实验用了 20M 参数的 transformer,256 个视觉 patch。(虚线代表「预填充」点,我从这里开始,输入重建结果的前几个 patch)
你可以靠直觉这么理解:它用另一种方式,呈现了渐进去噪的扩散直觉。每个向量本身都带噪声,但累积求和会一步步把你拉向低维数据流形的潜在结构。
博主称多数人终生用不到积分,统计对决策更重要
Sakana AI发布Fugu,认为协同编排是AI下一前沿,保障AI主权
业内人士预测2030年所有企业都将配备企业大脑
到2030年,公司没有「公司大脑」会变得和现在没有生产数据库一样荒谬。每家公司都会为智能体维护单一可信数据源,事后看来这会是一件理所当然的事。
我们相信,每家公司都理应拥有自己的大脑,不需要投入庞大的工程师团队从零搭建。这就是我们创立@hyperspell的原因:为每家公司打造大脑。
社交平台用户推测Meta下一款大语言模型为协作办公LLM
Sakana发布类单模型运行的多智能体编排产品,评测表现出色
Sakana 在本周初发布了 AI 公告!多智能体编排可以表现得像单个模型一样,而且……性能超过了 Fable!?
对于一个非前沿实验室来说,这些评测结果有点疯狂(现在它算前沿了?)
作者分享使用AI多任务的体验,提出专注单任务更高效
我一直觉得ai可以让我同时做多件事情, 但实际上我脑子线程是十分有限的, ai确实是干活快,但很多事一起进行时,我要不停的切换我的思维去审核ai产出的每一条结果,这反而会严重分散我的注意力,根本没有提高效率。 所以不如专注高效的去做好一件事,再开始下一个。
精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。