四台放在烤面包机旁的 Mac Mini 正在运行私有 AI,月花费 21000 美元
OpenAI用AI和专家帮开源项目修漏洞
你每天用的浏览器、操作系统、还有各种应用,底层都跑着开源代码。但这些项目分散、没人盯着,漏洞不少。前几年的log4j漏洞就是个例子——一个日志库的问题,影响了上亿用户。
OpenAI周一公布了一个叫“Patch the Planet”的计划,和安全公司Trail of Bits合作,帮开源社区修补安全漏洞。Trail of Bits的安全工程师会直接找开源项目的维护者,一起看代码问题。OpenAI自己的安全工具Codex Security也会参与进来,辅助分析。
这个计划的设计挺贴心:不给维护者添乱。
🔥 信号雷达
𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌
行业动态 · Hacker News▲ 36
扩散Transformer生成模型推出了统一评估基准
开发者现在可以用这套基准,更全面地对比不同生成模型的实际效果
扩散Transformer生成模型推出了统一评估基准
开发者现在可以用这套基准,更全面地对比不同生成模型的实际效果
行业动态 · Hacker News▲ 31
有人说要阴阳怪气骂自私用大模型的人
对大模型使用方式的不同态度已经催生了社群里的道德对立。这种对立会影响普通人用大模型的选择
有人说要阴阳怪气骂自私用大模型的人
对大模型使用方式的不同态度已经催生了社群里的道德对立。这种对立会影响普通人用大模型的选择
行业动态 · @RoundtableSpace▲ 3.2万
四个Mac Mini加一个烤面包机,每月花2.1万美元跑私有AI
这就是现在私有AI的运行成本,可供参考
四个Mac Mini加一个烤面包机,每月花2.1万美元跑私有AI
这就是现在私有AI的运行成本,可供参考
行业观点 · @fchollet▲ 2.7万
AI大神François Chollet驳斥AI取代SaaS的观点
他澄清Claude无法取代SaaS,并给出四点核心论据
AI大神François Chollet驳斥AI取代SaaS的观点
他澄清Claude无法取代SaaS,并给出四点核心论据
这听起来蠢到离谱,但 SaaS 空头显然真的相信这套说法:“所有软件都终将归零,因为 Claude 可以一次性生成这些应用”。这句话短视到惊人。
澄清几点:
1. 它做不到。Fable 可用的时候我用过,它确实是个不错的模型,但离目标还差不到1%的路程。
2. 就算它做得到,这件事整体而言对 SaaS 公司是利好,不是利空。从更好的开发工具中获益最多的群体就是软件开发者。
3. 代码不等于产品。既然客户可以花钱订阅就能把问题解决,没人会仅仅因为自己能生成代码,就愿意亲自处理遇到的每一项额外任务。
4. 代码生成越容易,就会催生更多软件,意味着现有 SaaS 的使用场景会更广。你已经能从数据中看到这个趋势了。
生成式AI · @minchoi▲ 3.4万
AI工具Seedance 2.0可生成完整K-pop舞蹈MV
AI工具Seedance 2.0可基于角色参考生成完整K-pop舞蹈音乐视频
AI工具Seedance 2.0可生成完整K-pop舞蹈MV
AI工具Seedance 2.0可基于角色参考生成完整K-pop舞蹈音乐视频
行业动态 · Hacker News▲ 39
通义千问推出了通用智能体框架Qwen-AgentWorld
关注通用AI智能体发展的人,可以跟进这个新开源项目的进展
通义千问推出了通用智能体框架Qwen-AgentWorld
关注通用AI智能体发展的人,可以跟进这个新开源项目的进展
行业动态 · Hacker News▲ 44
智能体平台该怎么划分团队分工?
讨论智能体平台的团队分工拓扑结构,帮做相关规划的人理清不同角色的职责边界
智能体平台该怎么划分团队分工?
讨论智能体平台的团队分工拓扑结构,帮做相关规划的人理清不同角色的职责边界
社区讨论:多数读者认为原帖表述混乱,每段塞满命名概念,大量主张没解释对应问题,读起来像未经编辑的AI垃圾内容,呼吁作者修改优化可读性。有从业者指出,实际试过文中提到的多智能体编码,结果并不理想,这类未被验证的技术就像付费推广的网红餐厅,只有流量没有实料。也有人认同原帖提到的智能体分工确实存在复杂性。
行业动态 · Hacker News▲ 186
Anthropic 更新服务条款,要验证年龄或身份了
使用 Claude 服务需要提交个人身份或年龄信息才能继续使用。
Anthropic 更新服务条款,要验证年龄或身份了
使用 Claude 服务需要提交个人身份或年龄信息才能继续使用。
社区讨论:不少用户批评此举是闭源大模型引入监控和准入管控的信号,有人讽刺此前西方批评中国的公民监控与评分体系,现在美国反而要在该领域走到前列。有非美国用户担忧美国AI监管会持续抬高其他地区用户访问这些闭源模型的门槛,还有用户早就因Anthropic偷偷降智特定技术领域的模型输出取消了订阅,不少人转而认为开放权重模型才是行业未来方向。
行业动态 · Hacker News▲ 426
Mistral 推出新版文字识别工具OCR 4
关注大模型进展的人可以留意,新版 Mistral OCR 已经发布,目前已有大量讨论。
Mistral 推出新版文字识别工具OCR 4
关注大模型进展的人可以留意,新版 Mistral OCR 已经发布,目前已有大量讨论。
社区讨论:付费订阅过Mistral产品的用户吐槽其产品体验差,宁愿浪费年订阅也不愿再使用。有用户对比价格,指出Mistral OCR 4每千页收费4美元,比Google Vision OCR的1.5美元贵很多,也有人好奇它和Llama Parse的效果对比。有实际使用过前代产品处理老化文件的用户反馈,其效果比Abbyy Finereader更好。
还有从业者调侃,一定会有经理人无视官方的使用范围提示,将它用到高风险场景中。
新品发布 · @OpenAIDevs▲ 7.7万
半年更30+更新,OpenAI悄悄出了GPT-5.5
近期OpenAI为开发者API批量推出多款新模型和开发工具,不少更新未单独发布公告,开发者可以直接选用新工具搭建AI应用。
半年更30+更新,OpenAI悄悄出了GPT-5.5
近期OpenAI为开发者API批量推出多款新模型和开发工具,不少更新未单独发布公告,开发者可以直接选用新工具搭建AI应用。
过去六个月,我们为 API 发布了 30 余个模型、功能和升级工具。我们的更新日志一直排得很满。以下是你可能错过的 API 更新内容:
新模型
• GPT-5.5
• GPT-5.4 mini
• GPT-5.4 nano
• GPT-Realtime-2
• GPT-Realtime-Whisper
• GPT-Realtime-Translate
• GPT-Image-2
智能体构建模块
• Agents SDK 框架与沙箱
• Responses API 中的技能
• 服务端压缩
• WebSocket 模式
• 托管终端
更多构建方式
• Admin API 增强
• OpenAI CLI
• Amazon Bedrock 上可用的模型
评测 · @emollick▲ 5.9万
开发者实测AI模型Sakana Fugu Ultra-high速度极慢
开发者测试Sakana Fugu Ultra-high,实测运行耗时久效果未达预期
开发者实测AI模型Sakana Fugu Ultra-high速度极慢
开发者测试Sakana Fugu Ultra-high,实测运行耗时久效果未达预期
我一直在试用 Sakana Fugu Ultra-high,首先它慢得离谱:我常规的编码测试(着色器、交互场景)要跑30分钟。
而结果也就…还行。实际使用中它比不上Fable。它的harbor就是一个很好的例子:
TiKZ unicorn
产品发布 · @OfficialLoganK▲ 13.0万
谷歌正式推出Interactions API 为智能体新时代铺路
谷歌正式发布通用可用的Interactions API,用于统一编排模型与智能体
谷歌正式推出Interactions API 为智能体新时代铺路
谷歌正式发布通用可用的Interactions API,用于统一编排模型与智能体
今日我们正式推出达到GA可用状态的Interactions API。这是我们全新的API,设计目的是让你在同一界面中协调多个模型和智能体工作,它也是我们未来默认采用的新API。Interactions为智能体的新时代铺平了道路 :)
这项API的开发和落地准备离不开@alihcevik、@_philschmid以及Google团队中许多其他成员的出色工作,感谢大家!
职业 · @VincentLogic▲ 147
你听说吗?最容易被AI拉开差距的是半上车的人
只会开通会员问AI问题截图炫耀,却不沉淀提示词,也不把AI整合进日常工作流,把单次经验变成可复用的系统。
你听说吗?最容易被AI拉开差距的是半上车的人
只会开通会员问AI问题截图炫耀,却不沉淀提示词,也不把AI整合进日常工作流,把单次经验变成可复用的系统。
未来几年,最容易被 AI 拉开差距的,不是底层体力劳动者。而是那些以为自己“懂一点”,但从来没有真正把 AI 接进工作流的人。他们会开会员,会问问题,会截图炫耀。
但不会沉淀提示词,不会整理资料,不会让 AI 复盘自己,不会把一次经验变成系统。这类人最危险,因为他们以为自己已经上车了。
工具 · @WesRoth
Perplexity上线了智源GLM-5.2开放模型接口
开发者现在可以在Perplexity的智能代理(Agent)API里调用这个智源的旗舰开源模型,用来写代码和搭建智能代理工作流。
Perplexity上线了智源GLM-5.2开放模型接口
开发者现在可以在Perplexity的智能代理(Agent)API里调用这个智源的旗舰开源模型,用来写代码和搭建智能代理工作流。
Perplexity 在其 Agent API 中发布了 GLM-5.2,允许开发者调用 Z ai 面向代码开发和智能体工作流的旗舰开放权重模型。
AI生成 · @liyue_ai▲ 217
AI生成的摩天轮居然长得这么奇怪离谱
有人分享了一张摩天轮照片,轮廓结构妖异,第一眼就会怀疑是不是AI生成的内容。
AI生成的摩天轮居然长得这么奇怪离谱
有人分享了一张摩天轮照片,轮廓结构妖异,第一眼就会怀疑是不是AI生成的内容。
研究 · @norpadon▲ 70
AI量化建模处理像素值时总有一步容易漏
图像像素看着是连续数值,实际存储是8或10位整数,做量化建模时这里有容易出错的细节。
AI量化建模处理像素值时总有一步容易漏
图像像素看着是连续数值,实际存储是8或10位整数,做量化建模时这里有容易出错的细节。
新品发布 · @WesRoth▲ 726
AI视频生成现在能直接出4K专业级画面了
做后期制作、广告和品牌视觉内容,可以直接用网页端工具生成符合要求的4K分辨率内容
AI视频生成现在能直接出4K专业级画面了
做后期制作、广告和品牌视觉内容,可以直接用网页端工具生成符合要求的4K分辨率内容
Dreamina AI 在其网页平台发布了支持 4K 视频生成的 Seedance 2.0。
本次更新支持输出 3840 × 2160 UHD 规格,面向专业后期制作、广告与品牌视觉领域。
行业动态 · @BAI_AGI▲ 3.7K
AI基础设施用户近200万,日吞吐近120亿Token
比起拥有模型入口,能在百亿级高频吞吐下保持零宕机、低延迟,才是真正的核心壁垒
AI基础设施用户近200万,日吞吐近120亿Token
比起拥有模型入口,能在百亿级高频吞吐下保持零宕机、低延迟,才是真正的核心壁垒
【6月23日| 生态洞察】 全线指标高位凝聚动能, 持续拓宽全球开发者首选的工业级 AI 基础设施底座。
🔹百亿算力洪流全面常态化:日 Token 吞吐量强劲横盘于 11.97B 高位,日均百亿级并发已成为运行基线,持续为全球高负载业务提供坚不可摧的性能支撑。
🔹200万用户里程碑近在咫尺: 全球生态加速聚沙成塔,累计注册总数已精准推进至 1,993,642,规模效应正驱动平台网络价值进入爆发临界点。
🔹API 牢牢锚定 99.2% 核心心智: 这一数据再次表明, 全天候运行的完全是硬核代码调用与自动化工作流,已全面固化为深度嵌入商业流程的刚需底层。
🔹TRON 链展现统治级份额: 链上充值占比全面提升,其中 #TRON 链凭借极高的结算效率、坚实的网络高韧性与极致低摩擦的转账成本,单独斩获 79.4% 的压倒性份额。
💡 核心洞察: 拥有模型入口并不代表拥有壁垒,在百亿级高频吞吐下保持“零宕机、低延迟”的工程确定性才是真正的降维打击。
致力于担当硬核底座,协助全球团队将 AI 算力无缝转化为确定性的业务价值。
👉 一键部署您的生产级 AI 工作流:
深度观点 · @VincentLogic▲ 73
别再光“学习AI”了,先做个能卖钱的东西
一直准备却迟迟不开始,是这个时代效率最低的AI学习方式,边做边学比空想准备更有用。
别再光“学习AI”了,先做个能卖钱的东西
一直准备却迟迟不开始,是这个时代效率最低的AI学习方式,边做边学比空想准备更有用。
给普通人的 S 级忠告: 不要再“学习 AI”。这句话太虚了。你应该直接拿 AI 做一个东西。
做一个网站。做一个账号。做一个产品页。
做一个数据分析。做一个自动化流程。做一个能卖钱的交付物。
学不会没关系,边做边问。这个时代,最傻逼的学习方式就是一直准备开始。
前沿研究 · @dejavucoder▲ 427
做自动研究工作流,这个基准测试挺有用
搭建自动研究类工作流时,可以用上这个基准测试
做自动研究工作流,这个基准测试挺有用
搭建自动研究类工作流时,可以用上这个基准测试
AI监管 · @_arohan_▲ 132
各国政府该给AI模型出一张统一标准答案考卷
开发者不知道该往哪个方向优化模型,有人提议政府像出公民考试一样,明确列出要求,开发者就能照着优化了。
各国政府该给AI模型出一张统一标准答案考卷
开发者不知道该往哪个方向优化模型,有人提议政府像出公民考试一样,明确列出要求,开发者就能照着优化了。
行业动态 · @WesRoth
接下来几周,AI圈会迎来近几年最激烈的竞争
行业观察者预判,这段时间会有大量新产品或者新技术集中发布,竞争烈度会超过之前多数时期。
接下来几周,AI圈会迎来近几年最激烈的竞争
行业观察者预判,这段时间会有大量新产品或者新技术集中发布,竞争烈度会超过之前多数时期。
未来几周可能会成为我们在AI领域见过的竞争最激烈的时期之一。
新品发布 · @jordnb▲ 387
推出能自主常驻在组织里的异步工作实体
这个实体自带全组织工具与上下文,能和人类团队配合协同工作。
推出能自主常驻在组织里的异步工作实体
这个实体自带全组织工具与上下文,能和人类团队配合协同工作。
求职 · @ericosiu▲ 345
招人怎么判断真会用AI?试试这三个简单问题
面试AI相关岗位的时候,让候选人开共享屏幕,当场演示自己常用的AI工作流,聊聊Claude Code这类工具的实际用法
招人怎么判断真会用AI?试试这三个简单问题
面试AI相关岗位的时候,让候选人开共享屏幕,当场演示自己常用的AI工作流,聊聊Claude Code这类工具的实际用法
如何筛选接受AI理念的人才:问他们最喜欢的工作流是什么。让他们共享屏幕,展示你问到的这些工作流。让他们打开自己的 Claude Code/Codex,聊聊他们最近几天是怎么用这个工具的。
就这么简单。
工具 · @svpino▲ 1.8K
Claude Code居然能爬付费墙后面的网站内容
配合Apify和MCP连接器,它可以解析全网内容,还能让AI代理操作付费权限内的服务器任务
Claude Code居然能爬付费墙后面的网站内容
配合Apify和MCP连接器,它可以解析全网内容,还能让AI代理操作付费权限内的服务器任务
Claude Code 可以通过 Apify actors 解析整个互联网。配合 MCP 连接器,你可以和服务器对话,让你的代理执行付费墙背后的操作。
举个例子(点这里看视频):分析一个 YouTube 视频,然后把摘要写进 Notion 页面。另一个例子:抓取学校日历,自动把事件添加到你的 Google Calendar。
你可以用 Claude Code + Apify Skills 完成所有这些操作。配置只需要花几秒钟:
• 打开你的 Apify 设置 > API & Integrations
• 连接你的工具(Notion、Google Calendar 等)
• 一次性完成授权
现在你的 actors 就拥有这些服务的直接读写权限了。
这里有一篇博客文章,讲解 Apify 里的 MCP 连接器是如何工作的:
感谢 Apify 团队和我合作推出这篇文章。
机器人 · @BoyuanChen0▲ 302
MIT开源了能用视频指令控制机器人的项目
研发团队认为视频是机器人的通用语言,这个开源项目能给任意机器人赋能,完成不同类型的任务
MIT开源了能用视频指令控制机器人的项目
研发团队认为视频是机器人的通用语言,这个开源项目能给任意机器人赋能,完成不同类型的任务
行业预测 · @teortaxesTex▲ 729
分析师预言2026年底AI赛道会迎来重大变局
届时多家美国实验室会推出具备类自我改进(RSI)潜力的超大型模型,千兆瓦级AI算力园区也会投入使用
分析师预言2026年底AI赛道会迎来重大变局
届时多家美国实验室会推出具备类自我改进(RSI)潜力的超大型模型,千兆瓦级AI算力园区也会投入使用
到2026年第四季度/2027年第一季度,我们将见证AI竞赛双方都发生阶段变革。
多家美国实验室将发布具备RSI潜力的Mythos级模型,GW级算力园区投入运行……
而中国创业公司将拥有2000-3000名员工,大约10万-20万块GPU。它们直到现在才刚进入自己的「Hopper」时代。
工具教程 · @LangChain▲ 3.1K
LangChain分了两类AI代理,告诉你什么时候用哪款
LangSmith Fleet做了通用对话代理和专业代理的区分,官方拆解了这个设计的原因,以及对应的使用场景
LangChain分了两类AI代理,告诉你什么时候用哪款
LangSmith Fleet做了通用对话代理和专业代理的区分,官方拆解了这个设计的原因,以及对应的使用场景
LangSmith Fleet 有两类 agent:通用对话 agent 和专用 agent。下面是我们梳理的为什么这是一个深思熟虑的选择,以及什么时候该用哪一类。
职场 · @BrianRoemmele▲ 3.6K
Meta暂停追踪员工键盘输入的AI训练项目
这个内部AI项目被泄露之后,Meta选择停止项目,此前项目一直用来追踪员工的日常输入记录
Meta暂停追踪员工键盘输入的AI训练项目
这个内部AI项目被泄露之后,Meta选择停止项目,此前项目一直用来追踪员工的日常输入记录
云服务 · @GoogleCloudTech▲ 2.2K
谷歌云优化后,大模型推理速度快8倍吞吐量提5倍
和Anyscale合作优化后,运行在谷歌Kubernetes引擎上的Ray Serve大模型推理服务,性能提升很明显
谷歌云优化后,大模型推理速度快8倍吞吐量提5倍
和Anyscale合作优化后,运行在谷歌Kubernetes引擎上的Ray Serve大模型推理服务,性能提升很明显
通过与@anyscalecompute的合作,现在 Google Kubernetes Engine 上的 Ray Serve LLM 可为分布式推理提供高 5 倍的吞吐量,并且延迟降低 8 倍!
了解更多关于如何在无瓶颈的情况下扩展推理 →
深度观点 · @beffjezos▲ 1.7K
美国开源大模型需要政府给钱支持?不然就完了
有人认为,美国政府必须把支持本国开源AI模型放在优先位置,否则发展会出问题。
美国开源大模型需要政府给钱支持?不然就完了
有人认为,美国政府必须把支持本国开源AI模型放在优先位置,否则发展会出问题。
新品发布 · @warpdotdev▲ 1.1K
终端工具Warp新增支持GLM 5.2大模型
GLM 5.2托管在Fireworks,token效率表现优秀,同时支持自带推理接口连接其他服务商
终端工具Warp新增支持GLM 5.2大模型
GLM 5.2托管在Fireworks,token效率表现优秀,同时支持自带推理接口连接其他服务商
前沿研究 · @RoundtableSpace▲ 6.9K
本地跑国产大模型,速度对比GPT和Claude
有人把本地运行GLM-5.2 GGUF,和在线的GPT-5.5、Claude Opus 4.8做了同提示词输出对比
本地跑国产大模型,速度对比GPT和Claude
有人把本地运行GLM-5.2 GGUF,和在线的GPT-5.5、Claude Opus 4.8做了同提示词输出对比
3个模型,同一个提示词,单次生成结果并排对比。
> GLM-5.2 GGUF 在 M3 Ultra 本地运行,生成速度 21 tok/s
> 另一边是 Claude Opus 4.8 和 GPT-5.5
深度观点 · @ZackKorman▲ 669
企业CEO说要让AI实验室降价,怕什么?
其他科技CEO都在推荐新的大模型好用,只有这位CEO希望AI实验室降价,避免企业发现开源模型好用。
企业CEO说要让AI实验室降价,怕什么?
其他科技CEO都在推荐新的大模型好用,只有这位CEO希望AI实验室降价,避免企业发现开源模型好用。
其他科技公司CEO:试试GLM-5.2,真的很棒!
Palo Alto Networks的CEO:AI实验室应该降价,这样企业就不会去试开放权重模型,也就不会发现它们其实很好用了。
实战经验 · @LangChain▲ 4.0K
深度智能体出了新玩法,可以自己写代码跑了
LangChain开源团队出了一份讲解教程,想做AI智能体可以参考这份新方案。
深度智能体出了新玩法,可以自己写代码跑了
LangChain开源团队出了一份讲解教程,想做AI智能体可以参考这份新方案。
新品发布 · @RoundtableSpace▲ 1.1万
Google办了场比赛,让AIagent比谁跑得更快
比赛比每秒输出token数,有实时排行榜,社区跑模型的时候就能一起优化它
Google办了场比赛,让AIagent比谁跑得更快
比赛比每秒输出token数,有实时排行榜,社区跑模型的时候就能一起优化它
Google 和 Hugging Face 推出了一场实时竞赛,AI 代理会互相竞速,目标是在实时环境中让 Gemma 4 E4B 运行得更快。
参赛代理会在实时排行榜上竞争,评分标准是每秒生成的 token 数量。
在竞赛运行期间,整个社区会共同对模型进行优化。
实战经验 · @tetsuoai▲ 1.5K
神经网络核心只需要四张卡片讲明白
想搞懂AI到底怎么工作,不用先啃几大本数学书,记会四个核心概念就能入门所有AI模型。
神经网络核心只需要四张卡片讲明白
想搞懂AI到底怎么工作,不用先啃几大本数学书,记会四个核心概念就能入门所有AI模型。
一整个神经网络核心,就浓缩在四张内容卡里。
神经元、前向传播、激活函数、反向传播。
学会这四个概念,你就能理解从感知机到 transformer 的每一个模型是如何做预测、如何学习的。
深度观点 · @emollick▲ 1.6万
未来半年可能出开源顶级大模型,风险更高
所有顶级能力的大模型都可能带来类似风险,政府未明确风险方向,可能拖慢风险应对准备
未来半年可能出开源顶级大模型,风险更高
所有顶级能力的大模型都可能带来类似风险,政府未明确风险方向,可能拖慢风险应对准备
所有 Mythos 级模型都可能带来类似风险。
未来 6 到 12 个月内,如果开放的 Mythos 级 AI 发布(前提是中国批准),这些风险只会变得更大。
目前政府到底在关注哪些风险尚不明确,这可能会拖慢筹备工作。
深度观点 · @fchollet▲ 2.1万
现在的AI技术栈,2040年就会被完全换掉
现有AI技术栈数据效率低三到四个数量级,计算效率低四到五个数量级,2040年的近最优AI会由符号学习实现
现在的AI技术栈,2040年就会被完全换掉
现有AI技术栈数据效率低三到四个数量级,计算效率低四到五个数量级,2040年的近最优AI会由符号学习实现
到2040年的AI不会建立在我们今天使用的技术栈之上。它会更接近最优状态。
当前技术栈的数据效率存在3-4个数量级的浪费,计算效率存在4-5个数量级的浪费。
符号学习将会带来接近最优的AI。
行业动态 · @TechCrunch▲ 7.5K
印度营销公司押注,未来营销靠数百万AI智能体
营销领域已经开始押注AI智能体的未来方向
印度营销公司押注,未来营销靠数百万AI智能体
营销领域已经开始押注AI智能体的未来方向
工具产品 · @fofrAI▲ 4.7K
一行命令就能给AI Agent加Gemini技能
搭建自己的AI智能体不用从零写功能,直接用命令就能调用现成技能,省了重复开发的时间。
一行命令就能给AI Agent加Gemini技能
搭建自己的AI智能体不用从零写功能,直接用命令就能调用现成技能,省了重复开发的时间。
给你的 agents: > npx skills add google-gemini/gemini-skills --skill gemini-interactions-api --global
前沿研究 · @goodfellow_ian▲ 1.2万
小参数开源权重模型,居然比热门方案还能打
早已有小众工具用更小的模型做LLM漏洞挖掘,效果能和流行方案竞争,早做探索的小项目也可能藏着更优路径
小参数开源权重模型,居然比热门方案还能打
早已有小众工具用更小的模型做LLM漏洞挖掘,效果能和流行方案竞争,早做探索的小项目也可能藏着更优路径
虽然 Mythos 推广了用 LLM 寻找漏洞的想法,但 Aisle 更早就在做这件事了。
从工程角度来看,一个搭载结构化搜索系统的小型开放权重模型,能在这项任务上具备竞争力,这一点很值得玩味。
视频生成 · @HBCoop_▲ 1.4K
四款主流AI视频生成模型完成同条件对比测试
测试人员使用同一参考图与提示词,对四款模型各测试四次后选出最优结果
四款主流AI视频生成模型完成同条件对比测试
测试人员使用同一参考图与提示词,对四款模型各测试四次后选出最优结果
本次对比测试涉及四款AI视频生成模型,分别是Happy Horse 1.1、Seedance 2.0、Gemini Omni与Kling 3.0。测试人员对每款模型都使用了相同的参考图像与提示词。每款模型共完成四次生成尝试,测试人员从中选出表现最好的结果。
完整测试结果可查看原链接。
研究 · @hwchase17▲ 1.1万
研究提出Self-Harness方法让AI智能体自我改进
最新研究发布Self-Harness,可让智能体逐步自我优化
研究提出Self-Harness方法让AI智能体自我改进
最新研究发布Self-Harness,可让智能体逐步自我优化
🧠Self-Harness:可以自我迭代改进的Harness
一篇关于智能体塑造自身Harness以随时间推移提升性能的新论文。
它不是LangChain的项目,而是基于DeepAgents构建。它包含三个核心步骤:
1/ 弱点挖掘:从运行轨迹中找出失效模式
2/ Harness提议:对Harness提出修改建议
3/ 提议验证:对提议进行回归测试,然后决定是否采纳
论文链接:
基于DeepAgents构建:
前沿研究 · @dejavucoder▲ 427
做自动研究工作流,这个基准测试挺有用
搭建自动研究类工作流时,可以用上这个基准测试
做自动研究工作流,这个基准测试挺有用
搭建自动研究类工作流时,可以用上这个基准测试
前沿研究 · @goodfellow_ian▲ 1.2万
小参数开源权重模型,居然比热门方案还能打
早已有小众工具用更小的模型做LLM漏洞挖掘,效果能和流行方案竞争,早做探索的小项目也可能藏着更优路径
小参数开源权重模型,居然比热门方案还能打
早已有小众工具用更小的模型做LLM漏洞挖掘,效果能和流行方案竞争,早做探索的小项目也可能藏着更优路径
虽然 Mythos 推广了用 LLM 寻找漏洞的想法,但 Aisle 更早就在做这件事了。
从工程角度来看,一个搭载结构化搜索系统的小型开放权重模型,能在这项任务上具备竞争力,这一点很值得玩味。
前沿研究 · @RoundtableSpace▲ 6.9K
本地跑国产大模型,速度对比GPT和Claude
有人把本地运行GLM-5.2 GGUF,和在线的GPT-5.5、Claude Opus 4.8做了同提示词输出对比
本地跑国产大模型,速度对比GPT和Claude
有人把本地运行GLM-5.2 GGUF,和在线的GPT-5.5、Claude Opus 4.8做了同提示词输出对比
3个模型,同一个提示词,单次生成结果并排对比。
> GLM-5.2 GGUF 在 M3 Ultra 本地运行,生成速度 21 tok/s
> 另一边是 Claude Opus 4.8 和 GPT-5.5
新品发布 · @WesRoth▲ 726
AI视频生成现在能直接出4K专业级画面了
做后期制作、广告和品牌视觉内容,可以直接用网页端工具生成符合要求的4K分辨率内容
AI视频生成现在能直接出4K专业级画面了
做后期制作、广告和品牌视觉内容,可以直接用网页端工具生成符合要求的4K分辨率内容
Dreamina AI 在其网页平台发布了支持 4K 视频生成的 Seedance 2.0。
本次更新支持输出 3840 × 2160 UHD 规格,面向专业后期制作、广告与品牌视觉领域。
新品发布 · @jordnb▲ 387
推出能自主常驻在组织里的异步工作实体
这个实体自带全组织工具与上下文,能和人类团队配合协同工作。
推出能自主常驻在组织里的异步工作实体
这个实体自带全组织工具与上下文,能和人类团队配合协同工作。
新品发布 · @OpenAIDevs▲ 7.7万
半年更30+更新,OpenAI悄悄出了GPT-5.5
近期OpenAI为开发者API批量推出多款新模型和开发工具,不少更新未单独发布公告,开发者可以直接选用新工具搭建AI应用。
半年更30+更新,OpenAI悄悄出了GPT-5.5
近期OpenAI为开发者API批量推出多款新模型和开发工具,不少更新未单独发布公告,开发者可以直接选用新工具搭建AI应用。
过去六个月,我们为 API 发布了 30 余个模型、功能和升级工具。我们的更新日志一直排得很满。以下是你可能错过的 API 更新内容:
新模型
• GPT-5.5
• GPT-5.4 mini
• GPT-5.4 nano
• GPT-Realtime-2
• GPT-Realtime-Whisper
• GPT-Realtime-Translate
• GPT-Image-2
智能体构建模块
• Agents SDK 框架与沙箱
• Responses API 中的技能
• 服务端压缩
• WebSocket 模式
• 托管终端
更多构建方式
• Admin API 增强
• OpenAI CLI
• Amazon Bedrock 上可用的模型
新品发布 · @RoundtableSpace▲ 1.1万
Google办了场比赛,让AIagent比谁跑得更快
比赛比每秒输出token数,有实时排行榜,社区跑模型的时候就能一起优化它
Google办了场比赛,让AIagent比谁跑得更快
比赛比每秒输出token数,有实时排行榜,社区跑模型的时候就能一起优化它
Google 和 Hugging Face 推出了一场实时竞赛,AI 代理会互相竞速,目标是在实时环境中让 Gemma 4 E4B 运行得更快。
参赛代理会在实时排行榜上竞争,评分标准是每秒生成的 token 数量。
在竞赛运行期间,整个社区会共同对模型进行优化。
新品发布 · @warpdotdev▲ 1.1K
终端工具Warp新增支持GLM 5.2大模型
GLM 5.2托管在Fireworks,token效率表现优秀,同时支持自带推理接口连接其他服务商
终端工具Warp新增支持GLM 5.2大模型
GLM 5.2托管在Fireworks,token效率表现优秀,同时支持自带推理接口连接其他服务商
行业动态 · @RoundtableSpace▲ 3.2万
四个Mac Mini加一个烤面包机,每月花2.1万美元跑私有AI
这就是现在私有AI的运行成本,可供参考
四个Mac Mini加一个烤面包机,每月花2.1万美元跑私有AI
这就是现在私有AI的运行成本,可供参考
行业动态 · @BAI_AGI▲ 3.7K
AI基础设施用户近200万,日吞吐近120亿Token
比起拥有模型入口,能在百亿级高频吞吐下保持零宕机、低延迟,才是真正的核心壁垒
AI基础设施用户近200万,日吞吐近120亿Token
比起拥有模型入口,能在百亿级高频吞吐下保持零宕机、低延迟,才是真正的核心壁垒
【6月23日| 生态洞察】 全线指标高位凝聚动能, 持续拓宽全球开发者首选的工业级 AI 基础设施底座。
🔹百亿算力洪流全面常态化:日 Token 吞吐量强劲横盘于 11.97B 高位,日均百亿级并发已成为运行基线,持续为全球高负载业务提供坚不可摧的性能支撑。
🔹200万用户里程碑近在咫尺: 全球生态加速聚沙成塔,累计注册总数已精准推进至 1,993,642,规模效应正驱动平台网络价值进入爆发临界点。
🔹API 牢牢锚定 99.2% 核心心智: 这一数据再次表明, 全天候运行的完全是硬核代码调用与自动化工作流,已全面固化为深度嵌入商业流程的刚需底层。
🔹TRON 链展现统治级份额: 链上充值占比全面提升,其中 #TRON 链凭借极高的结算效率、坚实的网络高韧性与极致低摩擦的转账成本,单独斩获 79.4% 的压倒性份额。
💡 核心洞察: 拥有模型入口并不代表拥有壁垒,在百亿级高频吞吐下保持“零宕机、低延迟”的工程确定性才是真正的降维打击。
致力于担当硬核底座,协助全球团队将 AI 算力无缝转化为确定性的业务价值。
👉 一键部署您的生产级 AI 工作流:
职业 · @VincentLogic▲ 147
你听说吗?最容易被AI拉开差距的是半上车的人
只会开通会员问AI问题截图炫耀,却不沉淀提示词,也不把AI整合进日常工作流,把单次经验变成可复用的系统。
你听说吗?最容易被AI拉开差距的是半上车的人
只会开通会员问AI问题截图炫耀,却不沉淀提示词,也不把AI整合进日常工作流,把单次经验变成可复用的系统。
未来几年,最容易被 AI 拉开差距的,不是底层体力劳动者。而是那些以为自己“懂一点”,但从来没有真正把 AI 接进工作流的人。他们会开会员,会问问题,会截图炫耀。
但不会沉淀提示词,不会整理资料,不会让 AI 复盘自己,不会把一次经验变成系统。这类人最危险,因为他们以为自己已经上车了。
工具 · @WesRoth
Perplexity上线了智源GLM-5.2开放模型接口
开发者现在可以在Perplexity的智能代理(Agent)API里调用这个智源的旗舰开源模型,用来写代码和搭建智能代理工作流。
Perplexity上线了智源GLM-5.2开放模型接口
开发者现在可以在Perplexity的智能代理(Agent)API里调用这个智源的旗舰开源模型,用来写代码和搭建智能代理工作流。
Perplexity 在其 Agent API 中发布了 GLM-5.2,允许开发者调用 Z ai 面向代码开发和智能体工作流的旗舰开放权重模型。
AI生成 · @liyue_ai▲ 217
AI生成的摩天轮居然长得这么奇怪离谱
有人分享了一张摩天轮照片,轮廓结构妖异,第一眼就会怀疑是不是AI生成的内容。
AI生成的摩天轮居然长得这么奇怪离谱
有人分享了一张摩天轮照片,轮廓结构妖异,第一眼就会怀疑是不是AI生成的内容。
研究 · @norpadon▲ 70
AI量化建模处理像素值时总有一步容易漏
图像像素看着是连续数值,实际存储是8或10位整数,做量化建模时这里有容易出错的细节。
AI量化建模处理像素值时总有一步容易漏
图像像素看着是连续数值,实际存储是8或10位整数,做量化建模时这里有容易出错的细节。
行业动态 · Hacker News▲ 31
有人说要阴阳怪气骂自私用大模型的人
对大模型使用方式的不同态度已经催生了社群里的道德对立。这种对立会影响普通人用大模型的选择
有人说要阴阳怪气骂自私用大模型的人
对大模型使用方式的不同态度已经催生了社群里的道德对立。这种对立会影响普通人用大模型的选择
行业动态 · Hacker News▲ 36
扩散Transformer生成模型推出了统一评估基准
开发者现在可以用这套基准,更全面地对比不同生成模型的实际效果
扩散Transformer生成模型推出了统一评估基准
开发者现在可以用这套基准,更全面地对比不同生成模型的实际效果
AI监管 · @_arohan_▲ 132
各国政府该给AI模型出一张统一标准答案考卷
开发者不知道该往哪个方向优化模型,有人提议政府像出公民考试一样,明确列出要求,开发者就能照着优化了。
各国政府该给AI模型出一张统一标准答案考卷
开发者不知道该往哪个方向优化模型,有人提议政府像出公民考试一样,明确列出要求,开发者就能照着优化了。
行业动态 · @WesRoth
接下来几周,AI圈会迎来近几年最激烈的竞争
行业观察者预判,这段时间会有大量新产品或者新技术集中发布,竞争烈度会超过之前多数时期。
接下来几周,AI圈会迎来近几年最激烈的竞争
行业观察者预判,这段时间会有大量新产品或者新技术集中发布,竞争烈度会超过之前多数时期。
未来几周可能会成为我们在AI领域见过的竞争最激烈的时期之一。
行业动态 · Hacker News▲ 44
智能体平台该怎么划分团队分工?
讨论智能体平台的团队分工拓扑结构,帮做相关规划的人理清不同角色的职责边界
智能体平台该怎么划分团队分工?
讨论智能体平台的团队分工拓扑结构,帮做相关规划的人理清不同角色的职责边界
社区讨论:多数读者认为原帖表述混乱,每段塞满命名概念,大量主张没解释对应问题,读起来像未经编辑的AI垃圾内容,呼吁作者修改优化可读性。有从业者指出,实际试过文中提到的多智能体编码,结果并不理想,这类未被验证的技术就像付费推广的网红餐厅,只有流量没有实料。也有人认同原帖提到的智能体分工确实存在复杂性。
行业动态 · Hacker News▲ 39
通义千问推出了通用智能体框架Qwen-AgentWorld
关注通用AI智能体发展的人,可以跟进这个新开源项目的进展
通义千问推出了通用智能体框架Qwen-AgentWorld
关注通用AI智能体发展的人,可以跟进这个新开源项目的进展
行业动态 · @TechCrunch▲ 7.5K
印度营销公司押注,未来营销靠数百万AI智能体
营销领域已经开始押注AI智能体的未来方向
印度营销公司押注,未来营销靠数百万AI智能体
营销领域已经开始押注AI智能体的未来方向
求职 · @ericosiu▲ 345
招人怎么判断真会用AI?试试这三个简单问题
面试AI相关岗位的时候,让候选人开共享屏幕,当场演示自己常用的AI工作流,聊聊Claude Code这类工具的实际用法
招人怎么判断真会用AI?试试这三个简单问题
面试AI相关岗位的时候,让候选人开共享屏幕,当场演示自己常用的AI工作流,聊聊Claude Code这类工具的实际用法
如何筛选接受AI理念的人才:问他们最喜欢的工作流是什么。让他们共享屏幕,展示你问到的这些工作流。让他们打开自己的 Claude Code/Codex,聊聊他们最近几天是怎么用这个工具的。
就这么简单。
工具 · @svpino▲ 1.8K
Claude Code居然能爬付费墙后面的网站内容
配合Apify和MCP连接器,它可以解析全网内容,还能让AI代理操作付费权限内的服务器任务
Claude Code居然能爬付费墙后面的网站内容
配合Apify和MCP连接器,它可以解析全网内容,还能让AI代理操作付费权限内的服务器任务
Claude Code 可以通过 Apify actors 解析整个互联网。配合 MCP 连接器,你可以和服务器对话,让你的代理执行付费墙背后的操作。
举个例子(点这里看视频):分析一个 YouTube 视频,然后把摘要写进 Notion 页面。另一个例子:抓取学校日历,自动把事件添加到你的 Google Calendar。
你可以用 Claude Code + Apify Skills 完成所有这些操作。配置只需要花几秒钟:
• 打开你的 Apify 设置 > API & Integrations
• 连接你的工具(Notion、Google Calendar 等)
• 一次性完成授权
现在你的 actors 就拥有这些服务的直接读写权限了。
这里有一篇博客文章,讲解 Apify 里的 MCP 连接器是如何工作的:
感谢 Apify 团队和我合作推出这篇文章。
机器人 · @BoyuanChen0▲ 302
MIT开源了能用视频指令控制机器人的项目
研发团队认为视频是机器人的通用语言,这个开源项目能给任意机器人赋能,完成不同类型的任务
MIT开源了能用视频指令控制机器人的项目
研发团队认为视频是机器人的通用语言,这个开源项目能给任意机器人赋能,完成不同类型的任务
行业预测 · @teortaxesTex▲ 729
分析师预言2026年底AI赛道会迎来重大变局
届时多家美国实验室会推出具备类自我改进(RSI)潜力的超大型模型,千兆瓦级AI算力园区也会投入使用
分析师预言2026年底AI赛道会迎来重大变局
届时多家美国实验室会推出具备类自我改进(RSI)潜力的超大型模型,千兆瓦级AI算力园区也会投入使用
到2026年第四季度/2027年第一季度,我们将见证AI竞赛双方都发生阶段变革。
多家美国实验室将发布具备RSI潜力的Mythos级模型,GW级算力园区投入运行……
而中国创业公司将拥有2000-3000名员工,大约10万-20万块GPU。它们直到现在才刚进入自己的「Hopper」时代。
工具教程 · @LangChain▲ 3.1K
LangChain分了两类AI代理,告诉你什么时候用哪款
LangSmith Fleet做了通用对话代理和专业代理的区分,官方拆解了这个设计的原因,以及对应的使用场景
LangChain分了两类AI代理,告诉你什么时候用哪款
LangSmith Fleet做了通用对话代理和专业代理的区分,官方拆解了这个设计的原因,以及对应的使用场景
LangSmith Fleet 有两类 agent:通用对话 agent 和专用 agent。下面是我们梳理的为什么这是一个深思熟虑的选择,以及什么时候该用哪一类。
职场 · @BrianRoemmele▲ 3.6K
Meta暂停追踪员工键盘输入的AI训练项目
这个内部AI项目被泄露之后,Meta选择停止项目,此前项目一直用来追踪员工的日常输入记录
Meta暂停追踪员工键盘输入的AI训练项目
这个内部AI项目被泄露之后,Meta选择停止项目,此前项目一直用来追踪员工的日常输入记录
云服务 · @GoogleCloudTech▲ 2.2K
谷歌云优化后,大模型推理速度快8倍吞吐量提5倍
和Anyscale合作优化后,运行在谷歌Kubernetes引擎上的Ray Serve大模型推理服务,性能提升很明显
谷歌云优化后,大模型推理速度快8倍吞吐量提5倍
和Anyscale合作优化后,运行在谷歌Kubernetes引擎上的Ray Serve大模型推理服务,性能提升很明显
通过与@anyscalecompute的合作,现在 Google Kubernetes Engine 上的 Ray Serve LLM 可为分布式推理提供高 5 倍的吞吐量,并且延迟降低 8 倍!
了解更多关于如何在无瓶颈的情况下扩展推理 →
行业动态 · Hacker News▲ 426
Mistral 推出新版文字识别工具OCR 4
关注大模型进展的人可以留意,新版 Mistral OCR 已经发布,目前已有大量讨论。
Mistral 推出新版文字识别工具OCR 4
关注大模型进展的人可以留意,新版 Mistral OCR 已经发布,目前已有大量讨论。
社区讨论:付费订阅过Mistral产品的用户吐槽其产品体验差,宁愿浪费年订阅也不愿再使用。有用户对比价格,指出Mistral OCR 4每千页收费4美元,比Google Vision OCR的1.5美元贵很多,也有人好奇它和Llama Parse的效果对比。有实际使用过前代产品处理老化文件的用户反馈,其效果比Abbyy Finereader更好。
还有从业者调侃,一定会有经理人无视官方的使用范围提示,将它用到高风险场景中。
行业动态 · Hacker News▲ 186
Anthropic 更新服务条款,要验证年龄或身份了
使用 Claude 服务需要提交个人身份或年龄信息才能继续使用。
Anthropic 更新服务条款,要验证年龄或身份了
使用 Claude 服务需要提交个人身份或年龄信息才能继续使用。
社区讨论:不少用户批评此举是闭源大模型引入监控和准入管控的信号,有人讽刺此前西方批评中国的公民监控与评分体系,现在美国反而要在该领域走到前列。有非美国用户担忧美国AI监管会持续抬高其他地区用户访问这些闭源模型的门槛,还有用户早就因Anthropic偷偷降智特定技术领域的模型输出取消了订阅,不少人转而认为开放权重模型才是行业未来方向。
深度观点 · @VincentLogic▲ 73
别再光“学习AI”了,先做个能卖钱的东西
一直准备却迟迟不开始,是这个时代效率最低的AI学习方式,边做边学比空想准备更有用。
别再光“学习AI”了,先做个能卖钱的东西
一直准备却迟迟不开始,是这个时代效率最低的AI学习方式,边做边学比空想准备更有用。
给普通人的 S 级忠告: 不要再“学习 AI”。这句话太虚了。你应该直接拿 AI 做一个东西。
做一个网站。做一个账号。做一个产品页。
做一个数据分析。做一个自动化流程。做一个能卖钱的交付物。
学不会没关系,边做边问。这个时代,最傻逼的学习方式就是一直准备开始。
深度观点 · @fchollet▲ 2.1万
现在的AI技术栈,2040年就会被完全换掉
现有AI技术栈数据效率低三到四个数量级,计算效率低四到五个数量级,2040年的近最优AI会由符号学习实现
现在的AI技术栈,2040年就会被完全换掉
现有AI技术栈数据效率低三到四个数量级,计算效率低四到五个数量级,2040年的近最优AI会由符号学习实现
到2040年的AI不会建立在我们今天使用的技术栈之上。它会更接近最优状态。
当前技术栈的数据效率存在3-4个数量级的浪费,计算效率存在4-5个数量级的浪费。
符号学习将会带来接近最优的AI。
深度观点 · @emollick▲ 1.6万
未来半年可能出开源顶级大模型,风险更高
所有顶级能力的大模型都可能带来类似风险,政府未明确风险方向,可能拖慢风险应对准备
未来半年可能出开源顶级大模型,风险更高
所有顶级能力的大模型都可能带来类似风险,政府未明确风险方向,可能拖慢风险应对准备
所有 Mythos 级模型都可能带来类似风险。
未来 6 到 12 个月内,如果开放的 Mythos 级 AI 发布(前提是中国批准),这些风险只会变得更大。
目前政府到底在关注哪些风险尚不明确,这可能会拖慢筹备工作。
深度观点 · @ZackKorman▲ 669
企业CEO说要让AI实验室降价,怕什么?
其他科技CEO都在推荐新的大模型好用,只有这位CEO希望AI实验室降价,避免企业发现开源模型好用。
企业CEO说要让AI实验室降价,怕什么?
其他科技CEO都在推荐新的大模型好用,只有这位CEO希望AI实验室降价,避免企业发现开源模型好用。
其他科技公司CEO:试试GLM-5.2,真的很棒!
Palo Alto Networks的CEO:AI实验室应该降价,这样企业就不会去试开放权重模型,也就不会发现它们其实很好用了。
深度观点 · @beffjezos▲ 1.7K
美国开源大模型需要政府给钱支持?不然就完了
有人认为,美国政府必须把支持本国开源AI模型放在优先位置,否则发展会出问题。
美国开源大模型需要政府给钱支持?不然就完了
有人认为,美国政府必须把支持本国开源AI模型放在优先位置,否则发展会出问题。
实战经验 · @tetsuoai▲ 1.5K
神经网络核心只需要四张卡片讲明白
想搞懂AI到底怎么工作,不用先啃几大本数学书,记会四个核心概念就能入门所有AI模型。
神经网络核心只需要四张卡片讲明白
想搞懂AI到底怎么工作,不用先啃几大本数学书,记会四个核心概念就能入门所有AI模型。
一整个神经网络核心,就浓缩在四张内容卡里。
神经元、前向传播、激活函数、反向传播。
学会这四个概念,你就能理解从感知机到 transformer 的每一个模型是如何做预测、如何学习的。
实战经验 · @LangChain▲ 4.0K
深度智能体出了新玩法,可以自己写代码跑了
LangChain开源团队出了一份讲解教程,想做AI智能体可以参考这份新方案。
深度智能体出了新玩法,可以自己写代码跑了
LangChain开源团队出了一份讲解教程,想做AI智能体可以参考这份新方案。
工具产品 · @fofrAI▲ 4.7K
一行命令就能给AI Agent加Gemini技能
搭建自己的AI智能体不用从零写功能,直接用命令就能调用现成技能,省了重复开发的时间。
一行命令就能给AI Agent加Gemini技能
搭建自己的AI智能体不用从零写功能,直接用命令就能调用现成技能,省了重复开发的时间。
给你的 agents: > npx skills add google-gemini/gemini-skills --skill gemini-interactions-api --global
产品发布 · @OfficialLoganK▲ 13.0万
谷歌正式推出Interactions API 为智能体新时代铺路
谷歌正式发布通用可用的Interactions API,用于统一编排模型与智能体
谷歌正式推出Interactions API 为智能体新时代铺路
谷歌正式发布通用可用的Interactions API,用于统一编排模型与智能体
今日我们正式推出达到GA可用状态的Interactions API。这是我们全新的API,设计目的是让你在同一界面中协调多个模型和智能体工作,它也是我们未来默认采用的新API。Interactions为智能体的新时代铺平了道路 :)
这项API的开发和落地准备离不开@alihcevik、@_philschmid以及Google团队中许多其他成员的出色工作,感谢大家!
研究 · @hwchase17▲ 1.1万
研究提出Self-Harness方法让AI智能体自我改进
最新研究发布Self-Harness,可让智能体逐步自我优化
研究提出Self-Harness方法让AI智能体自我改进
最新研究发布Self-Harness,可让智能体逐步自我优化
🧠Self-Harness:可以自我迭代改进的Harness
一篇关于智能体塑造自身Harness以随时间推移提升性能的新论文。
它不是LangChain的项目,而是基于DeepAgents构建。它包含三个核心步骤:
1/ 弱点挖掘:从运行轨迹中找出失效模式
2/ Harness提议:对Harness提出修改建议
3/ 提议验证:对提议进行回归测试,然后决定是否采纳
论文链接:
基于DeepAgents构建:
评测 · @emollick▲ 5.9万
开发者实测AI模型Sakana Fugu Ultra-high速度极慢
开发者测试Sakana Fugu Ultra-high,实测运行耗时久效果未达预期
开发者实测AI模型Sakana Fugu Ultra-high速度极慢
开发者测试Sakana Fugu Ultra-high,实测运行耗时久效果未达预期
我一直在试用 Sakana Fugu Ultra-high,首先它慢得离谱:我常规的编码测试(着色器、交互场景)要跑30分钟。
而结果也就…还行。实际使用中它比不上Fable。它的harbor就是一个很好的例子:
TiKZ unicorn
视频生成 · @HBCoop_▲ 1.4K
四款主流AI视频生成模型完成同条件对比测试
测试人员使用同一参考图与提示词,对四款模型各测试四次后选出最优结果
四款主流AI视频生成模型完成同条件对比测试
测试人员使用同一参考图与提示词,对四款模型各测试四次后选出最优结果
本次对比测试涉及四款AI视频生成模型,分别是Happy Horse 1.1、Seedance 2.0、Gemini Omni与Kling 3.0。测试人员对每款模型都使用了相同的参考图像与提示词。每款模型共完成四次生成尝试,测试人员从中选出表现最好的结果。
完整测试结果可查看原链接。
生成式AI · @minchoi▲ 3.4万
AI工具Seedance 2.0可生成完整K-pop舞蹈MV
AI工具Seedance 2.0可基于角色参考生成完整K-pop舞蹈音乐视频
AI工具Seedance 2.0可生成完整K-pop舞蹈MV
AI工具Seedance 2.0可基于角色参考生成完整K-pop舞蹈音乐视频
行业观点 · @fchollet▲ 2.7万
AI大神François Chollet驳斥AI取代SaaS的观点
他澄清Claude无法取代SaaS,并给出四点核心论据
AI大神François Chollet驳斥AI取代SaaS的观点
他澄清Claude无法取代SaaS,并给出四点核心论据
这听起来蠢到离谱,但 SaaS 空头显然真的相信这套说法:“所有软件都终将归零,因为 Claude 可以一次性生成这些应用”。这句话短视到惊人。
澄清几点:
1. 它做不到。Fable 可用的时候我用过,它确实是个不错的模型,但离目标还差不到1%的路程。
2. 就算它做得到,这件事整体而言对 SaaS 公司是利好,不是利空。从更好的开发工具中获益最多的群体就是软件开发者。
3. 代码不等于产品。既然客户可以花钱订阅就能把问题解决,没人会仅仅因为自己能生成代码,就愿意亲自处理遇到的每一项额外任务。
4. 代码生成越容易,就会催生更多软件,意味着现有 SaaS 的使用场景会更广。你已经能从数据中看到这个趋势了。
📖 深度解读
精选文章的中文编辑重写 · 按更新时间排列