OpenAI新模型GPT-5.5在Databricks的OfficeQA Pro基准测试中达到50%准确率,创下新纪录。这个基准专门评估模型处理扫描PDF、遗留文件和长上下文文档时的解析、检索和推理能力。相比GPT-5.4,GPT-5.5的错误减少了46%。
上一代GPT-5.4经常在任务中不必要的绕来绕去,导致效率低下。GPT-5.5在检索相关上下文和完成复杂工作流方面更可靠,不需要额外人工盯着。研究工程师Arnav Singhvi说,GPT-5.5在知识工作上是阶跃函数式的变化——它不再需要用户时刻监督每一步。
来自 𝕏 的实时信号,经 AI 聚类分析
Tencent AI团队专注解决AI agent长会话中上下文丢失问题,最终开源的记忆系统支持实时压缩过期上下文;有人看完分享发现,多数人还在堆上下文长度,而真正让agent变稳的,是这三招硬核操作。
CodeGraph为代码库提前构建语义知识图谱,Claude Code不再逐文件扫描,而是直接查图;VS Code这类巨型项目里,探索速度提升71%,token消耗大幅下降;有人用它把原本卡顿的调试流程变顺了。
TradingAgents是新开源的多智能体LLM交易框架,纯Python实现;它内置模拟环境、策略调度器和券商API适配层;量化新手用它搭了个新闻驱动型策略,在本地跑通了从舆情解析到下单的闭环。
Anthropic Fellows Program开放申请,提供每周3850美元薪资,无博士学位或科研经历要求;入选者全职学习AI系统设计与对齐实践;有人刚辞掉咨询工作报名,打算用三个月搞懂模型行为边界。
ScienceClaw 是一个框架,把科研流程拆成 285 个 Skill,接入 PubMed、Semantic Scholar、ArXiv 和 Google Scholar,供 LLM 调用。
Tencent AI团队专注解决AI agent长会话中上下文丢失问题,最终开源的记忆系统支持实时压缩过期上下文;有人看完分享发现,多数人还在堆上下文长度,而真正让agent变稳的,是这三招硬核操作。
CodeGraph为代码库提前构建语义知识图谱,Claude Code不再逐文件扫描,而是直接查图;VS Code这类巨型项目里,探索速度提升71%,token消耗大幅下降;有人用它把原本卡顿的调试流程变顺了。
TradingAgents是新开源的多智能体LLM交易框架,纯Python实现;它内置模拟环境、策略调度器和券商API适配层;量化新手用它搭了个新闻驱动型策略,在本地跑通了从舆情解析到下单的闭环。
Anthropic Fellows Program开放申请,提供每周3850美元薪资,无博士学位或科研经历要求;入选者全职学习AI系统设计与对齐实践;有人刚辞掉咨询工作报名,打算用三个月搞懂模型行为边界。
ScienceClaw 是一个框架,把科研流程拆成 285 个 Skill,接入 PubMed、Semantic Scholar、ArXiv 和 Google Scholar,供 LLM 调用。
精选文章的中文编辑重写 · 按更新时间排列
每天两次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30 和 15:00 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00 和 14:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。