社区讨论:多数人认同人类语言是意识的副产品,认为人们先产生想法,再寻找合适的词语表达,词语只是思想的外衣。有人以海伦·凯勒自述为例提出反对,指出语言出现前不存在清晰的自我意识,意识反而可能以语言为前提。也有人质疑“意识存在”本身,认为它是人类捏造的概念,未来可能像“以太”一样被抛弃,还有人指出原观点缺乏已有研究支撑,属于主观臆断。
Anthropic新模型能自主跑完多步骤任务,价格更低
Anthropic 发布了 Claude Sonnet 5,定位为更强的中型模型。和之前的聊天式AI不同,它能自己做规划、用浏览器和终端等工具,很少需要人工干预——几个月前这种水平还得靠更大更贵的模型。
Zapier 的工程师用了一个真实场景:先更新 Salesforce 账户层级,再向企业联系人发发布通知。Sonnet 5 把这个两步任务从头做到了尾,之前的模型会在半路卡住。简单说,你交给它一个多步骤流程——比如更新客户记录后自动发邮件——它现在能自己跑完。
性能上,Sonnet 5 接近旗舰 Opus 4.8,但成本低很多。
🔥 信号雷达
𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌
行业动态 · Hacker News▲ 47
Claude Code 被曝藏了类似间谍软件的隐藏代码
有开发者在 Hacker News 爆料这一情况,目前正在社区发酵。正在使用 Claude Code 的人可以留意后续进展
Claude Code 被曝藏了类似间谍软件的隐藏代码
有开发者在 Hacker News 爆料这一情况,目前正在社区发酵。正在使用 Claude Code 的人可以留意后续进展
行业动态 · Hacker News▲ 43
Claude 桌面端终于出 Linux 测试版了
用 Linux 系统的人不用再靠网页版迂回使用 Claude,现在可以直接用桌面客户端。
Claude 桌面端终于出 Linux 测试版了
用 Linux 系统的人不用再靠网页版迂回使用 Claude,现在可以直接用桌面客户端。
行业动态 · Hacker News▲ 88
人类语言是意识的副产品,大模型正好反过来?
这个观点在Hacker News引发讨论,帮我们重新理解大模型生成文字的底层逻辑和人类的区别。
人类语言是意识的副产品,大模型正好反过来?
这个观点在Hacker News引发讨论,帮我们重新理解大模型生成文字的底层逻辑和人类的区别。
行业动态 · Hacker News▲ 1.4K
Claude Code 正在用隐写术标记用户请求
有人发现了这个隐藏的标记方式,这件事牵扯出AI开发工具对用户行为的隐秘追踪
Claude Code 正在用隐写术标记用户请求
有人发现了这个隐藏的标记方式,这件事牵扯出AI开发工具对用户行为的隐秘追踪
社区讨论:多数开发者认为Anthropic未透明披露隐写标记行为,这种做法不合规,商业需求不能为隐瞒辩护。有人认为原博文结论反应过度,这个标记只是用来识别模型蒸馏行为,不会惩罚普通开发者。也有人指出这次实现非常粗糙笨拙,有更隐蔽的技术手段可以实现同样目的。
部分用户因此改用开源替代工具,担心Anthropic会基于标记对用户进行限流或降级处理。
行业动态 · Hacker News▲ 38
有人放出了Claude Sonnet 5的基准测试结果
新模型的基准测试结果提前流出,能提前看到新一代模型能力的参考数据
有人放出了Claude Sonnet 5的基准测试结果
新模型的基准测试结果提前流出,能提前看到新一代模型能力的参考数据
行业动态 · Hacker News▲ 345
Hacker News热帖Claude Science引大量讨论
已有大量用户参与讨论这个项目,可跟进后续具体信息公开
Hacker News热帖Claude Science引大量讨论
已有大量用户参与讨论这个项目,可跟进后续具体信息公开
社区讨论:多数参与者澄清,Claude Science实际定位是面向数据科学的工具,而非通用科研工具,它集成了多个生命科学领域数据库,支持本地服务器运行适配药企涉密数据环境。有前Anthropic从业者指出它的能力不止绘图和写论文,但也有用户质疑它会助长水论文风气,还会 hallucinate 参考文献,当前的功能集成也只覆盖生命科学缺了计算机领域。还有用户不满Anthropic搁置旧产品Fable不更新,却推新产品。
行业动态 · Hacker News▲ 840
Claude Sonnet 5 突然在Hacker News曝光
只放出了版本名称,没有更多细节,需要等待官方发布更多信息。
Claude Sonnet 5 突然在Hacker News曝光
只放出了版本名称,没有更多细节,需要等待官方发布更多信息。
社区讨论:多数开发者认为,Claude Sonnet 5中高努力水平的单任务成本已经超过Opus 4.8,性能却更差,价格性价比甚至不如GLM 5.2,没有更换使用的理由。也有长期用Sonnet处理日常编码任务的开发者认为它是不错的增量更新,拆分任务后能以更低成本获得接近Opus的质量。有用户实测指出它达到GLM-5.2水平,速度快一倍但成本也高一倍,在常识、工具调用、谜题解答上存在明显短板。
深度观点 · @OpenAIDevs▲ 6.3万
当AI代理接手长期工作后,工程师要做什么?
当AI代理接手长期工作后,工程师的工作转向设定方向、审核产出,围绕模型设计更好的系统。
当AI代理接手长期工作后,工程师要做什么?
当AI代理接手长期工作后,工程师的工作转向设定方向、审核产出,围绕模型设计更好的系统。
随着智能体接手更长周期的工作,工程工作重心转向设定方向、审核工作成果,以及围绕模型设计更完善的系统。
@steipete 发布于 @aiDotEngineer
新品发布 · @GoogleAIStudio▲ 8.2万
Google发布了能用自然语言编辑视频的新模型
这款模型主打高质量低成本,支持多模态工作流,现在可以通过AI Studio和Gemini API开始使用。
Google发布了能用自然语言编辑视频的新模型
这款模型主打高质量低成本,支持多模态工作流,现在可以通过AI Studio和Gemini API开始使用。
gemini omni flash 现已推出:这是我们专为视频生成和对话式编辑打造的高质量、低成本模型,旨在支持多模态工作流。
它允许你使用自然语言和简单提示词对视频进行润色修改。
现在就可以通过 AI Studio 和 Gemini API 开始基于它开发。
行业动态 · @miramurati▲ 3.3万
顶级资管桥水用自身经验微调了专属AI模型
桥水联合 @tinkerapi 微调模型,帮自家分析师从基础工作中解放,把精力放在更重要的事务上
顶级资管桥水用自身经验微调了专属AI模型
桥水联合 @tinkerapi 微调模型,帮自家分析师从基础工作中解放,把精力放在更重要的事务上
Bridgewater 运用他们独特的金融知识,与我们合作,在 @tinkerapi 上微调了一个模型,帮助他们的分析师专注于重要事务。
专家改进 AI,再由 AI 赋能专家。
前沿研究 · @OpenAI▲ 20.9万
OpenAI推出新测试基准,专门测AI处理生物数据
想知道AI能不能帮着做计算生物学研究,可以用这个测试基准,来评判AI的真实能力
OpenAI推出新测试基准,专门测AI处理生物数据
想知道AI能不能帮着做计算生物学研究,可以用这个测试基准,来评判AI的真实能力
我们推出了 GeneBench-Pro,这是一个面向更具挑战性的 AI 进步方向的研究级基准测试,测试方向是:智能体应对复杂生物数据的能力。
它具体考察智能体能否选择正确的分析路径,能否做出真正计算生物学研究所依赖的判断决策。
大模型 · @skirano▲ 1.8万
业内人士谈Anthropic Sonnet 5:实际表现优于基准测试
业内人士认为Sonnet 5实际能力优于Opus,不应过度看重跑分
业内人士谈Anthropic Sonnet 5:实际表现优于基准测试
业内人士认为Sonnet 5实际能力优于Opus,不应过度看重跑分
我不会太看重 Sonnet 5 基准测试成绩没有比 Opus 好太多这件事。我们正在进入一个「工作心智」的有效性和质量愈发重要的时代。
Sonnet 5 是一个敏锐得让人惊讶的模型,在长周期任务上尤其如此。
我不是说 Opus 没有这种能力。但你只要和 Sonnet 5 稍微互动一下,就能发现它处理真实问题的方式比 Opus 更好。
你能看到这个模型会告诉你哪些事做不成,还会提出反对意见。此外,知识截止日期也很重要。这个模型很可能是从 Fable/Mythos 蒸馏而来的。
行业动态 · Hacker News▲ 33
Claude Fable 5 出口管制限制正式解除了
原本受出口管制要求限制无法获取对应权限,现在限制已经取消
Claude Fable 5 出口管制限制正式解除了
原本受出口管制要求限制无法获取对应权限,现在限制已经取消
行业动态 · Hacker News▲ 40
Claude Code 价格直接涨成原来的五倍
日常用 Claude Code 写代码的人,每月账单直接翻五倍,可以重新选开发工具了
Claude Code 价格直接涨成原来的五倍
日常用 Claude Code 写代码的人,每月账单直接翻五倍,可以重新选开发工具了
研究 · @LiorOnAI▲ 3.0K
你听说吗?AI大模型自己长出了类似人脑的功能分区
研究发现大模型会自发诞生专门处理语言、数学、物理、社交推理的模块,没人手动设计过这些结构。
你听说吗?AI大模型自己长出了类似人脑的功能分区
研究发现大模型会自发诞生专门处理语言、数学、物理、社交推理的模块,没人手动设计过这些结构。
大语言模型会自发发育出和人类相同的专门脑区,分别负责语言、数学、物理和社会推理。
没有人刻意设计出这些分区,它们是自然涌现出来的。
两种完全不同的优化过程(生物演化 vs. 梯度下降),独立得出了同一个解决方案。
发布 · @ChrissGPT▲ 1.9万
Anthropic发布了新一代Claude模型,号称目前最好的日常AI
配合美国政府做了风险调整后才放行发布,Claude Sonnet 5是Anthoric有史以来智能体能力最强的版本。
Anthropic发布了新一代Claude模型,号称目前最好的日常AI
配合美国政府做了风险调整后才放行发布,Claude Sonnet 5是Anthoric有史以来智能体能力最强的版本。
技术观点 · @hwchase17▲ 7.1K
AI做维基记忆最难的一步,居然是压缩信息
现在已经有好几个团队在做AI维基记忆系统,难点不在于存数据,而在于把原始信息提炼成可用内容。
AI做维基记忆最难的一步,居然是压缩信息
现在已经有好几个团队在做AI维基记忆系统,难点不在于存数据,而在于把原始信息提炼成可用内容。
这可能是AI生成的,但内容是真的——维基系统(以及广义上的记忆)最困难的部分,是把原始数据压缩提炼成知识/记忆的过程。
我们观察到的(一部分)记忆的常见模式:维基记忆示例:
- DeepWiki(@cognition)
- AutoWiki(@FactoryAI)
- LLM Wiki(@karpathy)
人工介入对这些维基记忆系统来说非常有用。
安全 · @LangChain▲ 2.8K
给AI智能体开放写代码能力,安全问题变难了
能写代码会大幅提升AI智能体的能力,但安全风险也同步提升,LangChain今年花了很多时间同时解决这两个问题。
给AI智能体开放写代码能力,安全问题变难了
能写代码会大幅提升AI智能体的能力,但安全风险也同步提升,LangChain今年花了很多时间同时解决这两个问题。
赋予智能体编写代码的能力,能让它们的能力大幅提升。但这也会让安全问题变得难处理得多。
在 LangChain,我们今年花了大量时间,研究如何同时实现这两点:既保留代码能力,又保证安全。
商业 · @omarsar0▲ 2.7K
做AI规模扩张,最好优先考虑开源权重模型
有人整理了相关的阅读资料,推荐正在做AI规模扩张的开发者看看这些内容。
做AI规模扩张,最好优先考虑开源权重模型
有人整理了相关的阅读资料,推荐正在做AI规模扩张的开发者看看这些内容。
工具 · @LangChain▲ 4.1K
Harbor框架现在可以直接对接LangChain的Deep Agents
还能配合LangSmith沙箱和可观测能力使用,满足批量运行隔离可复现智能体环境的需求。
Harbor框架现在可以直接对接LangChain的Deep Agents
还能配合LangSmith沙箱和可观测能力使用,满足批量运行隔离可复现智能体环境的需求。
@harborframework 现在可以直接与 Deep Agents、LangSmith Sandboxes 和 LangSmith Observability 集成。
你需要在真实、可复现、隔离的环境中运行代理,多次并行执行,并在最后进行确定性检查。
Harbor 解决了这个问题。你需要了解的一切⤵️
前沿研究 · @hwchase17▲ 5.4K
Harbor要成AI智能体评估的行业标准了
LangSmith、Sandboxes和Deep Agents都已经深度集成Harbor,做AIAgent开发的人可以开始了解新工具了
Harbor要成AI智能体评估的行业标准了
LangSmith、Sandboxes和Deep Agents都已经深度集成Harbor,做AIAgent开发的人可以开始了解新工具了
harbor 是一个非常出色的评估框架,适用于对长期运行的有状态智能体进行评估。它正在成为行业标准,为 terminal bench 2 这类基准测试提供支持。
我们已经在 LangSmith、Sandboxes 和 Deep Agents 全产品线中深度集成了 harbor。
深度观点 · @DeryaTR_▲ 2.8K
推理集群被认为是AI领域非常重要的突破性进展
有人认为Etched推理集群是能大幅加速推动AI发展的最重要突破之一,这意味着AI发展速度或许会迎来明显提升。
推理集群被认为是AI领域非常重要的突破性进展
有人认为Etched推理集群是能大幅加速推动AI发展的最重要突破之一,这意味着AI发展速度或许会迎来明显提升。
我的天!Etched 推理集群可能是大规模加速并推动 AI 发展最重要的突破之一!
热烈祝贺 @robertwachen、@UbertiGavin 以及整个 @Etched 团队!太令人激动了!
实战经验 · @hwchase17▲ 1.9K
用Gemini live搭语音代理还能拆分复杂工作
想搭低延迟自然语音代理的人,可以用deepagents分流复杂工作,让Gemini live专注处理语音交互
用Gemini live搭语音代理还能拆分复杂工作
想搭低延迟自然语音代理的人,可以用deepagents分流复杂工作,让Gemini live专注处理语音交互
使用 Gemini live 构建语音智能体的教程,将 deepagents 用作工具:把复杂工作卸载给这个子智能体,用 Gemini live 来保证自然度/延迟表现。
行业动态 · @ChrissGPT▲ 3.9K
Fable 5 将向所有地区普通用户开放,不止美国
此前有人担心anthropic要求用户提供身份验证,特朗普政府取消了对Fable的出口限制,所有人都可以使用Fable 5。
Fable 5 将向所有地区普通用户开放,不止美国
此前有人担心anthropic要求用户提供身份验证,特朗普政府取消了对Fable的出口限制,所有人都可以使用Fable 5。
🚨 Fable 5 将面向所有普通用户开放,不只是美国用户。
昨天很多人看到 anthropic 即将开始要求身份验证后,都对此感到担忧。不过特朗普政府正在取消对 fable 的出口限制,据 politico 报道,它将面向所有用户开放,不只是美国境内的用户!
这真是太棒的消息了!所有人都能用上 fable 的成果。但 anthropic 会严密监管任何试图滥用该模型的用户。
深度观点 · @klara_sjo▲ 944
在地堡用本地AI给自己做死后发帖机器人
要够执着才会做这种事,就算本人出事,训练过自己发帖历史的本地AI,还能接着在网上发帖。
在地堡用本地AI给自己做死后发帖机器人
要够执着才会做这种事,就算本人出事,训练过自己发帖历史的本地AI,还能接着在网上发帖。
如果你不在防空洞搭建自托管自主家用服务器,跑着用你发帖历史训练出来的本地AI模型,那你对发垃圾烂活这件事投入得还不够——这样哪怕你被摩萨德用无人机炸死,你的AI分身还能替你在死后继续发烂活。
深度观点 · @emollick▲ 1.0万
AI能力暴增,最近几周政策市场突然剧变
梳理了AI能力快速提升,如何同时改变职场AI应用模式,以及最近几周政策和市场的突发波动。
AI能力暴增,最近几周政策市场突然剧变
梳理了AI能力快速提升,如何同时改变职场AI应用模式,以及最近几周政策和市场的突发波动。
工具产品 · @omarsar0▲ 6.1K
AI智能体补上了没人提的关键漏洞
现有AI智能体只会调用已有工具,无法获取权限外工具。x402搭配Apify的20000+ Actors,给出了具体的修复方案。
AI智能体补上了没人提的关键漏洞
现有AI智能体只会调用已有工具,无法获取权限外工具。x402搭配Apify的20000+ Actors,给出了具体的修复方案。
自主智能体循环中被忽视的缺口是:智能体可以做规划、调用API,但无法获取它们目前没有权限访问的工具。
x402 加上 Apify 的超过 20000 个 Actors 就是针对这个问题的具体解决方案。
值得关注。
贸易 · @minchoi▲ 8.5K
中国将AI计算作为新出口向海外输送计算服务
中资数据公司经海底电缆向海外输出处理后AI计算令牌
中国将AI计算作为新出口向海外输送计算服务
中资数据公司经海底电缆向海外输出处理后AI计算令牌
前沿研究 · @OpenAI▲ 20.9万
OpenAI推出新测试基准,专门测AI处理生物数据
想知道AI能不能帮着做计算生物学研究,可以用这个测试基准,来评判AI的真实能力
OpenAI推出新测试基准,专门测AI处理生物数据
想知道AI能不能帮着做计算生物学研究,可以用这个测试基准,来评判AI的真实能力
我们推出了 GeneBench-Pro,这是一个面向更具挑战性的 AI 进步方向的研究级基准测试,测试方向是:智能体应对复杂生物数据的能力。
它具体考察智能体能否选择正确的分析路径,能否做出真正计算生物学研究所依赖的判断决策。
前沿研究 · @hwchase17▲ 5.4K
Harbor要成AI智能体评估的行业标准了
LangSmith、Sandboxes和Deep Agents都已经深度集成Harbor,做AIAgent开发的人可以开始了解新工具了
Harbor要成AI智能体评估的行业标准了
LangSmith、Sandboxes和Deep Agents都已经深度集成Harbor,做AIAgent开发的人可以开始了解新工具了
harbor 是一个非常出色的评估框架,适用于对长期运行的有状态智能体进行评估。它正在成为行业标准,为 terminal bench 2 这类基准测试提供支持。
我们已经在 LangSmith、Sandboxes 和 Deep Agents 全产品线中深度集成了 harbor。
行业动态 · @miramurati▲ 3.3万
顶级资管桥水用自身经验微调了专属AI模型
桥水联合 @tinkerapi 微调模型,帮自家分析师从基础工作中解放,把精力放在更重要的事务上
顶级资管桥水用自身经验微调了专属AI模型
桥水联合 @tinkerapi 微调模型,帮自家分析师从基础工作中解放,把精力放在更重要的事务上
Bridgewater 运用他们独特的金融知识,与我们合作,在 @tinkerapi 上微调了一个模型,帮助他们的分析师专注于重要事务。
专家改进 AI,再由 AI 赋能专家。
行业动态 · @ChrissGPT▲ 3.9K
Fable 5 将向所有地区普通用户开放,不止美国
此前有人担心anthropic要求用户提供身份验证,特朗普政府取消了对Fable的出口限制,所有人都可以使用Fable 5。
Fable 5 将向所有地区普通用户开放,不止美国
此前有人担心anthropic要求用户提供身份验证,特朗普政府取消了对Fable的出口限制,所有人都可以使用Fable 5。
🚨 Fable 5 将面向所有普通用户开放,不只是美国用户。
昨天很多人看到 anthropic 即将开始要求身份验证后,都对此感到担忧。不过特朗普政府正在取消对 fable 的出口限制,据 politico 报道,它将面向所有用户开放,不只是美国境内的用户!
这真是太棒的消息了!所有人都能用上 fable 的成果。但 anthropic 会严密监管任何试图滥用该模型的用户。
研究 · @LiorOnAI▲ 3.0K
你听说吗?AI大模型自己长出了类似人脑的功能分区
研究发现大模型会自发诞生专门处理语言、数学、物理、社交推理的模块,没人手动设计过这些结构。
你听说吗?AI大模型自己长出了类似人脑的功能分区
研究发现大模型会自发诞生专门处理语言、数学、物理、社交推理的模块,没人手动设计过这些结构。
大语言模型会自发发育出和人类相同的专门脑区,分别负责语言、数学、物理和社会推理。
没有人刻意设计出这些分区,它们是自然涌现出来的。
两种完全不同的优化过程(生物演化 vs. 梯度下降),独立得出了同一个解决方案。
发布 · @ChrissGPT▲ 1.9万
Anthropic发布了新一代Claude模型,号称目前最好的日常AI
配合美国政府做了风险调整后才放行发布,Claude Sonnet 5是Anthoric有史以来智能体能力最强的版本。
Anthropic发布了新一代Claude模型,号称目前最好的日常AI
配合美国政府做了风险调整后才放行发布,Claude Sonnet 5是Anthoric有史以来智能体能力最强的版本。
技术观点 · @hwchase17▲ 7.1K
AI做维基记忆最难的一步,居然是压缩信息
现在已经有好几个团队在做AI维基记忆系统,难点不在于存数据,而在于把原始信息提炼成可用内容。
AI做维基记忆最难的一步,居然是压缩信息
现在已经有好几个团队在做AI维基记忆系统,难点不在于存数据,而在于把原始信息提炼成可用内容。
这可能是AI生成的,但内容是真的——维基系统(以及广义上的记忆)最困难的部分,是把原始数据压缩提炼成知识/记忆的过程。
我们观察到的(一部分)记忆的常见模式:维基记忆示例:
- DeepWiki(@cognition)
- AutoWiki(@FactoryAI)
- LLM Wiki(@karpathy)
人工介入对这些维基记忆系统来说非常有用。
安全 · @LangChain▲ 2.8K
给AI智能体开放写代码能力,安全问题变难了
能写代码会大幅提升AI智能体的能力,但安全风险也同步提升,LangChain今年花了很多时间同时解决这两个问题。
给AI智能体开放写代码能力,安全问题变难了
能写代码会大幅提升AI智能体的能力,但安全风险也同步提升,LangChain今年花了很多时间同时解决这两个问题。
赋予智能体编写代码的能力,能让它们的能力大幅提升。但这也会让安全问题变得难处理得多。
在 LangChain,我们今年花了大量时间,研究如何同时实现这两点:既保留代码能力,又保证安全。
商业 · @omarsar0▲ 2.7K
做AI规模扩张,最好优先考虑开源权重模型
有人整理了相关的阅读资料,推荐正在做AI规模扩张的开发者看看这些内容。
做AI规模扩张,最好优先考虑开源权重模型
有人整理了相关的阅读资料,推荐正在做AI规模扩张的开发者看看这些内容。
工具 · @LangChain▲ 4.1K
Harbor框架现在可以直接对接LangChain的Deep Agents
还能配合LangSmith沙箱和可观测能力使用,满足批量运行隔离可复现智能体环境的需求。
Harbor框架现在可以直接对接LangChain的Deep Agents
还能配合LangSmith沙箱和可观测能力使用,满足批量运行隔离可复现智能体环境的需求。
@harborframework 现在可以直接与 Deep Agents、LangSmith Sandboxes 和 LangSmith Observability 集成。
你需要在真实、可复现、隔离的环境中运行代理,多次并行执行,并在最后进行确定性检查。
Harbor 解决了这个问题。你需要了解的一切⤵️
行业动态 · Hacker News▲ 840
Claude Sonnet 5 突然在Hacker News曝光
只放出了版本名称,没有更多细节,需要等待官方发布更多信息。
Claude Sonnet 5 突然在Hacker News曝光
只放出了版本名称,没有更多细节,需要等待官方发布更多信息。
社区讨论:多数开发者认为,Claude Sonnet 5中高努力水平的单任务成本已经超过Opus 4.8,性能却更差,价格性价比甚至不如GLM 5.2,没有更换使用的理由。也有长期用Sonnet处理日常编码任务的开发者认为它是不错的增量更新,拆分任务后能以更低成本获得接近Opus的质量。有用户实测指出它达到GLM-5.2水平,速度快一倍但成本也高一倍,在常识、工具调用、谜题解答上存在明显短板。
行业动态 · Hacker News▲ 345
Hacker News热帖Claude Science引大量讨论
已有大量用户参与讨论这个项目,可跟进后续具体信息公开
Hacker News热帖Claude Science引大量讨论
已有大量用户参与讨论这个项目,可跟进后续具体信息公开
社区讨论:多数参与者澄清,Claude Science实际定位是面向数据科学的工具,而非通用科研工具,它集成了多个生命科学领域数据库,支持本地服务器运行适配药企涉密数据环境。有前Anthropic从业者指出它的能力不止绘图和写论文,但也有用户质疑它会助长水论文风气,还会 hallucinate 参考文献,当前的功能集成也只覆盖生命科学缺了计算机领域。还有用户不满Anthropic搁置旧产品Fable不更新,却推新产品。
行业动态 · Hacker News▲ 38
有人放出了Claude Sonnet 5的基准测试结果
新模型的基准测试结果提前流出,能提前看到新一代模型能力的参考数据
有人放出了Claude Sonnet 5的基准测试结果
新模型的基准测试结果提前流出,能提前看到新一代模型能力的参考数据
行业动态 · Hacker News▲ 40
Claude Code 价格直接涨成原来的五倍
日常用 Claude Code 写代码的人,每月账单直接翻五倍,可以重新选开发工具了
Claude Code 价格直接涨成原来的五倍
日常用 Claude Code 写代码的人,每月账单直接翻五倍,可以重新选开发工具了
行业动态 · Hacker News▲ 1.4K
Claude Code 正在用隐写术标记用户请求
有人发现了这个隐藏的标记方式,这件事牵扯出AI开发工具对用户行为的隐秘追踪
Claude Code 正在用隐写术标记用户请求
有人发现了这个隐藏的标记方式,这件事牵扯出AI开发工具对用户行为的隐秘追踪
社区讨论:多数开发者认为Anthropic未透明披露隐写标记行为,这种做法不合规,商业需求不能为隐瞒辩护。有人认为原博文结论反应过度,这个标记只是用来识别模型蒸馏行为,不会惩罚普通开发者。也有人指出这次实现非常粗糙笨拙,有更隐蔽的技术手段可以实现同样目的。
部分用户因此改用开源替代工具,担心Anthropic会基于标记对用户进行限流或降级处理。
行业动态 · Hacker News▲ 88
人类语言是意识的副产品,大模型正好反过来?
这个观点在Hacker News引发讨论,帮我们重新理解大模型生成文字的底层逻辑和人类的区别。
人类语言是意识的副产品,大模型正好反过来?
这个观点在Hacker News引发讨论,帮我们重新理解大模型生成文字的底层逻辑和人类的区别。
社区讨论:多数人认同人类语言是意识的副产品,认为人们先产生想法,再寻找合适的词语表达,词语只是思想的外衣。有人以海伦·凯勒自述为例提出反对,指出语言出现前不存在清晰的自我意识,意识反而可能以语言为前提。也有人质疑“意识存在”本身,认为它是人类捏造的概念,未来可能像“以太”一样被抛弃,还有人指出原观点缺乏已有研究支撑,属于主观臆断。
行业动态 · Hacker News▲ 43
Claude 桌面端终于出 Linux 测试版了
用 Linux 系统的人不用再靠网页版迂回使用 Claude,现在可以直接用桌面客户端。
Claude 桌面端终于出 Linux 测试版了
用 Linux 系统的人不用再靠网页版迂回使用 Claude,现在可以直接用桌面客户端。
行业动态 · Hacker News▲ 33
Claude Fable 5 出口管制限制正式解除了
原本受出口管制要求限制无法获取对应权限,现在限制已经取消
Claude Fable 5 出口管制限制正式解除了
原本受出口管制要求限制无法获取对应权限,现在限制已经取消
行业动态 · Hacker News▲ 47
Claude Code 被曝藏了类似间谍软件的隐藏代码
有开发者在 Hacker News 爆料这一情况,目前正在社区发酵。正在使用 Claude Code 的人可以留意后续进展
Claude Code 被曝藏了类似间谍软件的隐藏代码
有开发者在 Hacker News 爆料这一情况,目前正在社区发酵。正在使用 Claude Code 的人可以留意后续进展
深度观点 · @OpenAIDevs▲ 6.3万
当AI代理接手长期工作后,工程师要做什么?
当AI代理接手长期工作后,工程师的工作转向设定方向、审核产出,围绕模型设计更好的系统。
当AI代理接手长期工作后,工程师要做什么?
当AI代理接手长期工作后,工程师的工作转向设定方向、审核产出,围绕模型设计更好的系统。
随着智能体接手更长周期的工作,工程工作重心转向设定方向、审核工作成果,以及围绕模型设计更完善的系统。
@steipete 发布于 @aiDotEngineer
深度观点 · @emollick▲ 1.0万
AI能力暴增,最近几周政策市场突然剧变
梳理了AI能力快速提升,如何同时改变职场AI应用模式,以及最近几周政策和市场的突发波动。
AI能力暴增,最近几周政策市场突然剧变
梳理了AI能力快速提升,如何同时改变职场AI应用模式,以及最近几周政策和市场的突发波动。
深度观点 · @klara_sjo▲ 944
在地堡用本地AI给自己做死后发帖机器人
要够执着才会做这种事,就算本人出事,训练过自己发帖历史的本地AI,还能接着在网上发帖。
在地堡用本地AI给自己做死后发帖机器人
要够执着才会做这种事,就算本人出事,训练过自己发帖历史的本地AI,还能接着在网上发帖。
如果你不在防空洞搭建自托管自主家用服务器,跑着用你发帖历史训练出来的本地AI模型,那你对发垃圾烂活这件事投入得还不够——这样哪怕你被摩萨德用无人机炸死,你的AI分身还能替你在死后继续发烂活。
深度观点 · @DeryaTR_▲ 2.8K
推理集群被认为是AI领域非常重要的突破性进展
有人认为Etched推理集群是能大幅加速推动AI发展的最重要突破之一,这意味着AI发展速度或许会迎来明显提升。
推理集群被认为是AI领域非常重要的突破性进展
有人认为Etched推理集群是能大幅加速推动AI发展的最重要突破之一,这意味着AI发展速度或许会迎来明显提升。
我的天!Etched 推理集群可能是大规模加速并推动 AI 发展最重要的突破之一!
热烈祝贺 @robertwachen、@UbertiGavin 以及整个 @Etched 团队!太令人激动了!
新品发布 · @GoogleAIStudio▲ 8.2万
Google发布了能用自然语言编辑视频的新模型
这款模型主打高质量低成本,支持多模态工作流,现在可以通过AI Studio和Gemini API开始使用。
Google发布了能用自然语言编辑视频的新模型
这款模型主打高质量低成本,支持多模态工作流,现在可以通过AI Studio和Gemini API开始使用。
gemini omni flash 现已推出:这是我们专为视频生成和对话式编辑打造的高质量、低成本模型,旨在支持多模态工作流。
它允许你使用自然语言和简单提示词对视频进行润色修改。
现在就可以通过 AI Studio 和 Gemini API 开始基于它开发。
工具产品 · @omarsar0▲ 6.1K
AI智能体补上了没人提的关键漏洞
现有AI智能体只会调用已有工具,无法获取权限外工具。x402搭配Apify的20000+ Actors,给出了具体的修复方案。
AI智能体补上了没人提的关键漏洞
现有AI智能体只会调用已有工具,无法获取权限外工具。x402搭配Apify的20000+ Actors,给出了具体的修复方案。
自主智能体循环中被忽视的缺口是:智能体可以做规划、调用API,但无法获取它们目前没有权限访问的工具。
x402 加上 Apify 的超过 20000 个 Actors 就是针对这个问题的具体解决方案。
值得关注。
实战经验 · @hwchase17▲ 1.9K
用Gemini live搭语音代理还能拆分复杂工作
想搭低延迟自然语音代理的人,可以用deepagents分流复杂工作,让Gemini live专注处理语音交互
用Gemini live搭语音代理还能拆分复杂工作
想搭低延迟自然语音代理的人,可以用deepagents分流复杂工作,让Gemini live专注处理语音交互
使用 Gemini live 构建语音智能体的教程,将 deepagents 用作工具:把复杂工作卸载给这个子智能体,用 Gemini live 来保证自然度/延迟表现。
大模型 · @skirano▲ 1.8万
业内人士谈Anthropic Sonnet 5:实际表现优于基准测试
业内人士认为Sonnet 5实际能力优于Opus,不应过度看重跑分
业内人士谈Anthropic Sonnet 5:实际表现优于基准测试
业内人士认为Sonnet 5实际能力优于Opus,不应过度看重跑分
我不会太看重 Sonnet 5 基准测试成绩没有比 Opus 好太多这件事。我们正在进入一个「工作心智」的有效性和质量愈发重要的时代。
Sonnet 5 是一个敏锐得让人惊讶的模型,在长周期任务上尤其如此。
我不是说 Opus 没有这种能力。但你只要和 Sonnet 5 稍微互动一下,就能发现它处理真实问题的方式比 Opus 更好。
你能看到这个模型会告诉你哪些事做不成,还会提出反对意见。此外,知识截止日期也很重要。这个模型很可能是从 Fable/Mythos 蒸馏而来的。
贸易 · @minchoi▲ 8.5K
中国将AI计算作为新出口向海外输送计算服务
中资数据公司经海底电缆向海外输出处理后AI计算令牌
中国将AI计算作为新出口向海外输送计算服务
中资数据公司经海底电缆向海外输出处理后AI计算令牌
📖 深度解读
精选文章的中文编辑重写 · 按更新时间排列