AI Pulse
AI Pulse
说人话的 AI 情报站
2026 年 6 月 29 日 08:39 更新 00 信号0 主题
试试:
今日焦点

跨产品限制Claude:环境隔离与分层防御实战

我们如何在不同产品中安全包含Claude

十二个月前,我们还会断然拒绝让Claude拥有足以拿下内部Anthropic服务的访问权限。如今,这种级别的访问已是家常便饭,而Anthropic的开发者也因此效率更高。这些部署的风险包含两个部分:故障发生的概率有多大,以及故障可能造成多大损害。安全防护和模型训练的进展稳步降低了前者;后者——理论上的破坏半径——则随着能力和访问权限的扩展而增长。然而,当智能体能够完成曾经需要一个人甚至一个团队才能完成的工作时,不部署的成本变得足够大,以至于只要产品能够做到安全,风险回报计算就强烈倾向于采用。工程问题变成了如何限制破坏半径。

阅读全文 →

🔥 信号雷达

𝕏 实时信号 + arXiv 前沿论文,经 AI 聚类解读 · 一眼扫完全貌

行业动态 · Hacker News▲ 173

OpenAI Codex 无法排除敏感文件,问题还没修

用OpenAI Codex写代码的时候,还没法让它不碰敏感文件,这个问题从出现到现在一直没解决。

社区讨论:多数从业者认同不能依赖OpenAI官方的屏蔽列表解决问题,大语言模型行为不可预测,做不到完全排除敏感文件。大家公认正确解法是靠系统权限隔离,比如修改文件权限、将编码代理放在独立干净容器或云虚拟机中运行,让代理本身没有读取敏感文件的权限。有人提出该功能本就是画蛇添足,只会给用户虚假的安全感,还有用户指出这个问题已经拖了一年仍未修复。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 35

从零手写GPT-2规模大模型,全用纯C/CUDA

想进AI领域工作,不如从底层手写一个大模型,搞懂参数、数据和GPU的关系

大家好,在 anthropic 的 Fable 被禁之后,我开始开发 nanoeuler。我的雄心和梦想是进入 AI 领域,在 anthropic 工作。促使我创建 nanoeuler 的两个有趣原因是:(1) 调用大语言模型接口不代表理解它们的组成结构,(2) 在非常底层的层面开发大语言模型,可以理解参数、数据和模型增长之间的关联,以及 GPU 的工作原理,还有如何优化部分网络层。

于是我开始开发

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 53

大语言模型能通过镜子测试吗?这问题吵翻了

讨论核心直指大语言模型是否拥有自我意识,关心AI发展方向,能在这里看到不同角度的思考

社区讨论:不少人认为当前对大语言模型做镜子测试的思路本身不合理,大语言模型本质是下一个token预测系统,现有对话交互模式经过指令调优,已经带有“做有用助手”的强偏差,剥离额外微调才能看清模型真实能力。有人提出更适合大语言模型的自我认知测试是让它说出关于自身训练数据的事实,还推测模型后训练阶段被调整过,不会准确回答这类问题。也有人质疑,不该因为大模型能聊天,就忘了它本身的本质,非要用镜子测试考察它。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 366

国内开源大模型GLM 5.2跑分超过了Claude

这次测试结果发布在Hacker News,引发了三百多个点赞和一百多条讨论,有人关注测试结果的真实性。

社区讨论:有资深开发者实测称GLM-5.2适配日常编程场景,成本远低于GPT。也有用户多次试用后认为GLM体验很差,该跑分结果读起来像推广软文。多名用户指出这次跑分对比不严谨:没有明确标注对标Claude的具体型号,把GLM单prompt和Claude Code多智能体系统对比,还混淆了Claude品牌和对应大模型的概念。

有用户预测美国接下来会出台出口管制,要求OpenRouter、HuggingFace下架部分中国开源模型。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 107

美国限制出口后,奥地利抢着邀请Anthropic落户欧盟

美国AI企业想出海的,有欧洲国家愿意开出优惠条件接走。能绕开本土出口限制,也能避开其他地区竞争。

社区讨论:多数人认可欧盟要维持AI研发前沿,必须自主布局AI研发与算力基础设施。有人指出欧盟法规虽然繁琐但监管规则清晰可预期,适合大额投资的前沿AI机构落地。也有人质疑落地可行性,认为美国会出台惩罚性出口限制,Anthropic创始人是美国爱国者不会愿意离开美国,还有人称就算拿到硬件也绕不开美国的出口管制。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 142

谷歌限制了Meta使用自家Gemini大模型

两大科技巨头之间的AI合作已经生变,头部玩家的关系变化影响后续AI产品走向

社区讨论:不少人认为原标题存在误导,本次谷歌限制Meta使用Gemini是算力容量约束,并非限制Meta使用模型的功能或用途。有人质疑Meta本身自研大模型,却大量使用谷歌Gemini而非竞品,猜测是战略竞争或成本原因。还有人提出,未来获取顶级前沿大模型,会逐步对机构增加算力、合规等限制,个人用户的服务优先级会被降低。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 318

有人用Claude Code给自己的MRI看了第二意见

面对医疗检查结果拿不准,除了找医生读片,现在有人开始用AI工具做二次核对,看看会不会有遗漏

社区讨论:多数用户认为大模型目前不足以给出可靠的医学影像第二意见,真正的放射科专家普遍指出AI输出存在不足、误导性问题,也有用户明确表示不会用Claude这类模型分析图像。有用户分享个人经历称ChatGPT曾通过文本分析准确指出自己MRI报告的错误,另有从业者建议医生可以将合规大模型作为辅助工具,查看是否遗漏细节。

在 HN 看讨论 ↗   原文 / 论文 ↗
动态 · @mevil_bhojani▲ 28.1万

一个终端就能看530多款AI工具的实时热度

还整理了361个模型的定价、最新论文、融资和岗位信息,排名没有赞助

当下AI圈真正热门的东西是什么?不是空喊概念,而是实时动态。🔥

收录了530+工具的热度榜💸

361款模型的定价信息📄

热门论文💰

融资信息+岗位机会

全部整合在一个终端里。排行榜从不接赞助。

在 X 看原帖 ↗
28.1万96023
动态 · @emollick▲ 1.9万

没人知道OpenAI把GPT-6的标签留来干嘛

业内观察者提出了这个疑问,现在连GPT-5都还没正式发布,标签却提前留出来了

那么OpenAI把GPT-6这个标签留給哪个模型呢?

在 X 看原帖 ↗
1.9万119610
深度观点 · @mattshumer_▲ 3.3万

指望开源救模型?地缘这事开源也躲不开

有人觉得Fable/5.6受限后,开源能顶上来。但就算能限制美国模型,也没法放开让大家下载同级别中国模型,指望开源解决不了问题。

如果面对 Fable/5.6 被管控,你的回答是「开源会拯救我们」,那你完全没搞懂情况。

没错,政府可以禁止美国实验室提供前沿模型。但你觉得他们会让美国人下载性能相当的中国权重吗?对啊,当然会啦。(反话)

在 X 看原帖 ↗
3.3万1024720
人形机器人 · @TheHumanoidHub▲ 2.6万

人形机器人博主完成17天中国行程探访18家厂商

博主首次到访中国,走访内地4座城市,计划未来几日发布系列探访视频

阅读全文 →
2.6万914825
播客 · @GoogleDeepMind▲ 10.4万

Google DeepMind播客探讨智能体经济兴起与发展

谷歌DeepMind播客探讨百万AI交互催生的智能体经济

当数百万 AI 智能体开始相互谈判、交易和委托工作时,会发生什么?@weballergy 做客我们的播客,和 @fryrsquared 一起探讨智能体经济的崛起——以及我们如何让智能体决策多元化,以避免 AI 群体思维。

时间轴:
00:00 开场
1:07 AI 智能体的定义
4:44 科学与研究领域的智能体探索
15:46 智能体之间的委托
22:46 智能体安全与陷阱
29:31 构建智能体经济
33:22 认知单一栽培
36:29 分布式智能

观看→ Spotify → Apple Podcasts → 或者在你常用的播客平台收听!🎧

在 X 看原帖 ↗
10.4万99781472
行业动态 · Hacker News▲ 32

黑盒大模型也能被蒸馏出知识了

有人提出了针对黑盒大模型的知识蒸馏方法,相关讨论正在开源社区发酵。

行业动态 · Hacker News▲ 31

不用装Python,单文件Bash就能调用LLM

想在终端调用大模型,又不想装一堆依赖和运行环境。这个单文件脚本只用Bash、curl和jq就能完成基本操作

Bash4LLM 是一个单文件 Bash 封装工具,用于在终端内与大语言模型交互。

我创建它是因为我想要一个简单的工具,不需要安装 Python、Node 或任何其他运行环境就能运行。

它只依赖 Bash、curl 和 jq。你可以发送提示词、开启小型对话、逐行处理文件、流式输出,还能以 JSON 格式保存会话元数据。

我尽量让它安全、可预期:不使用系统 /tmp 目录,不使用 eval。

它默认支持 Groq,也可以添加其他提供商。

在 HN 看讨论 ↗   原文 / 论文 ↗
半导体 · @CKCapitalxx▲ 1.3万

AI服务器需要的内存是普通服务器的8-10倍

头部云厂商已经在这一块砸了数千亿,不少人还在看空内存赛道

阅读全文 →
1.3万511027
开发工具 · @connect24h▲ 3.0K

有人把一整套开发团队做成Claude Code工具集

包含CEO、设计师、工程师、QA共23个预设角色工具,不用自己拼prompt

这是Claude Code版的「把我的开发组织原样打包分发」项目。它把23个带有明确立场的工具加载到Claude Code中,分别让这些工具扮演CEO/设计师/工程经理/发布经理/文档工程师/QA。

虽然市面上已经有不少类似的工具集,但它真正厉害的地方不是提示词集合,而是将整个开发流程做成了斜杠命令,比如/office-hours→/plan-ceo-review→/review→/qa。

它会在新增代理之前,先明确角色和终止条件。这套机制很有参考价值,适合用来搭建你自己的AI代理。#AI駆動開発

在 X 看原帖 ↗
3.0K55151
工作流 · @TheAhmadOsman▲ 699

只要能命令行或API调用的活,都丢给GLM 5.2智能体做

开发者分享自己的日常工作流,重复自动化任务不用自己动手

如果一件事可以用 CLI 自动化,或是能通过 API 端点访问,我就会把它交给搭载 GLM 5.2 的智能体来帮我做。

在 X 看原帖 ↗
699152
机器人 · @CyberRobooo▲ 9.5K

土耳其发布了本国第一款工业人形机器人AKINCI-5

经过多年迭代,现在重点优化AI辅助行走和平衡能力

土耳其发布了本国首款工业人形机器人 AKINCI-5🇹🇷🤖。

经过多年迭代,它从 AKINCI-2、AKINCI-P 等早期原型发展而来,主打 AI 支持的行走、平衡与交互能力,目前处于测试和展示阶段。

这款机器人由土耳其知名软件公司 AKINSOFT 旗下的 AKINROBOTICS 制造,定位用于工厂、制造、仓储、采矿等挑战性环境。

此前,AKIN 已经推出过 ADA 系列轮式人形机器人,用于零售、医疗、客户协助等服务场景,比如 Ada-7。

早在 2017 年,该公司就在科尼亚省建成了当时全球首个人形机器人工厂,覆盖从零部件到整机的全流程研发与组装。

不过,围绕业务运营整合软硬件所能带来的长期价值是不可估量的。

在 X 看原帖 ↗
9.5K209421
开源工具 · @GithubProjects▲ 1.3万

开源语音工具WhisperX能把转写速度提70倍

还能精准标出每个词的时间戳,区分不同说话人,用大模型v2就能跑

WhisperX 提供快速自动语音识别,可通过批处理 Whisper 流水线生成准确的单词级时间戳和说话人分类。

- 使用 whisper large-v2 可实现 70 倍实时转录
- 通过 wav2vec2 强制对齐生成单词级时间戳
- 来自 pyannote-audio 的说话人分类功能
- VAD 预处理可减少幻觉,且不会降低词错误率

在此探索:

在 X 看原帖 ↗
1.3万12116109
工具产品 · @geekbb▲ 1.5万

不同AI工具终于能共享同一个记忆了

记忆存在自己的Cloudflare账号里,个人使用全程可走免费额度,数据全控制在自己手里。

这个好,一个开源内存层,让 Claude、ChatGPT、Cursor 和 Codex 共享一个大脑。 主要是它部署在 Cloudflare Workers 上,把记忆放在你自己 Cloudflare 账号里,对外走 MCP,数据落在用户自己的 D1、Vectorize、KV 与 Workers AI,强调语义检索而非字面匹配。个人规模可在 Cloudflare 免费额度内。

在 X 看原帖 ↗
1.5万31183316
行业动态 · @HeyGen▲ 2.2K

HeyGen用自家HyperFrames做了世博会开场视频

团队成员会到场设展位,还有两名成员将进行分享

我们用 HyperFrames 制作了 @aiDotEngineer World Fair 的官方开幕视频。我们团队也会到场线下参与,快来我们的展位找我们,留步观看 @Rames_Jusso 和 @liu8in 的演讲。我们现场见!

在 X 看原帖 ↗
2.2K2244
新品发布 · @RoundtableSpace▲ 4.3K

不用GPU!CPU本地就能跑千亿级AI模型

微软开源了1位推理框架bitnet-cpp,跑100B参数模型推理比之前快6.17倍,能耗降低82.2%,无需依赖云端算力。

Microsoft 已经开源了 bitnet-cpp。

这是一个1位推理框架,可以在CPU上运行100B参数模型,不需要GPU。

推理速度提升6.17倍,能耗降低82.2%。

不需要云,不需要GPU,只用你的本地机器就行。

在 X 看原帖 ↗
4.3K1219
工具产品 · @lucas_flatwhite▲ 1.2万

之前被Meta关停的Papers with Code复活了

关注AI研究与Agent趋势的人,可以在这里一站式查看最新研究、对应代码、各任务排名,还能提交自己的论文。

关注AI研究/智能体趋势的朋友们一定要收藏。.! 📑

Papers with Code 这个服务之前被 Meta 收购后消失了,现在 Hugging Face 为社区全新重建,让它复活了。

你可以在同一个地方查看各类研究、代码实现,以及按任务分类的排行榜:
- 可以实时查看最新趋势论文(基于 arXiv + HF)
- 每篇论文都整理好了对应的代码实现链接
- 按任务/基准分类的排行榜都已上线(对比SOTA真的很方便)
- 按 Agents、OCR、Audio、Vision、Reasoning 等领域做了清晰整理
- 还支持论文提交功能,可以上传自己/团队的论文(AI会自动添加标签)

感觉往后我能从这里得到很多帮助。.

在 X 看原帖 ↗
1.2万49146208
实战经验 · @Mho_23▲ 1.7万

做一条AI动画广告只要12美分,不到3分钟

不用花大价钱请设计师等三周,传产品图加一句话文案,就能自动生成图、视频、配音、字幕全内容,Meta和短视频平台流量表现很好

阅读全文 →
1.7万112239343
游戏引擎 · @AIWarper▲ 2.1K

虚幻引擎5.8 MCP完成AI生成Niagara模拟测试

下方区块由Claude根据单提示词生成,上方为Seedance 2.0制作内容,这是首次测试

这是虚幻引擎5.8 MCP的Niagara( Niagara,虚幻引擎的粒子模拟系统)模拟测试。测试画面下方的场景 Blockout(大体块白模)由Claude根据单个提示词生成。

测试画面上方的内容由Seedance 2.0制作完成。

这是该方向的首次测试。发布者计划后续尝试生成更干净的效果。

在 X 看原帖 ↗
2.1K46112
量化交易 · @Ravindra_PE▲ 1.3万

开发者将自适应超级趋势指标转换为Python代码完成扫描

开发者对NIFTY 50成分股和3个指数的多时间维度完成扫描,回测不保证未来收益

开发者Ravindra_PE将自适应超级趋势指标(AST)转换为Python代码。他用该代码对NIFTY 50成分股和3个指数完成扫描,覆盖的时间维度分别是5分钟、15分钟、30分钟、1小时和1天。

自适应超级趋势指标的核心逻辑是通用方案并不适用于所有场景。如果使用者交易上述提及的标的,可以使用开发者建议的对应时间维度。

如果使用者交易其他标的,可以留言提问,开发者会更新对应最合适的时间维度。

回测结果永远无法保证未来收益,部分情况下偏差幅度可超过50%。在开展真实交易前,需要完成足够的前瞻性测试。

在 X 看原帖 ↗
1.3万21139209
量化交易 · @quantscience_▲ 1.5万

从零搭建Python算法交易系统完整路线图

涵盖基础学习、数据存储、研究建模、回测执行全流程,附免费推荐工具清单

阅读全文 →
1.5万19128284
开源 · @altryne▲ 2.1K

开源AI迎来第二次DeepSeek时刻,本次市场未出现崩盘

本周开源AI领域多个新进展,包括GLM 5.2等多个新模型与工具发布

开源人工智能迎来了第二次DeepSeek时刻,这一次市场没有崩盘。本周行业整体平静,但开源AI悄然缩小了与闭源模型的差距。

GLM 5.2是目前最优的MIT许可证开源模型,是本次DeepSeek时刻的核心事件。

Sakana Fugu模型击败了Fable模型。

OpenAI与博通(Broadcom)合作研发了代号为Jalapeno的芯片。

Claude Tag功能让Claude成为用户Slack平台中持续可用的协作伙伴。

支持1位量化的Unsloth版本GLM 5.2,可以在Mac Studio上运行。相关播客和通讯内容已经更新上线。

在 X 看原帖 ↗
2.1K694
大语言模型 · @LangChain▲ 1.0万

周一网单个AI代理尝试调用200余款工具引发问题

这种设计导致上下文污染,大语言模型混乱、成本上升,始终无法正常工作

协作平台mondaydotcom(周一网)曾使用单个AI代理处理200余款工具的调用。

设计带来了全范围的上下文污染。大语言模型因此出现识别混乱,运行成本持续上升,系统始终无法正常工作。

omribruchim介绍了用深度代理(Deep Agents)重新搭建Sidekick项目的相关内容,相关链接可查看原发布。

想要观看本次AI代理大会的精彩内容,可以访问Interrupt会议档案获取回放,相关链接可查看原发布。

在 X 看原帖 ↗
1.0万95526
开发工具 · @0xMorlex▲ 5.5K

Claude加五个循环组件可搭建自动化无人编码系统

这套自动化系统可自行发现并完成工作,无需开发者每步等待,四个前提条件避免无效重复

这套系统的核心是Claude搭配五个循环组件,能让AI自行发现并完成开发工作,开发者无需在每一步等待。多数人使用编码智能体时都需要逐步骤等待,无法实现全流程自动化。

这套系统包含五个核心组件。自动化模块按计划或事件启动循环;技能文件存储规则与项目上下文;状态文件记录进度,让每次运行都能从上一次停下的位置继续。

MCP连接器从GitHub、Linear、Slack等工具拉取工作;编写子智能体与检查子智能体将执行和验证过程分离。

搭建循环前,任务需要满足四个条件:重复频率、自动化检查、已保存状态、强制停止。缺少这些条件,智能体可能永远重复错误工作,消耗 tokens(代币),还会认同自身错误。

目标不是更频繁地给Claude发提示词,而是搭建一个能自主发现工作、完成工作、验证工作、知道何时停止的循环。

在 X 看原帖 ↗
5.5K2810044
AI开发工具 · @github▲ 1.7万

GitHub测试Copilot智能框架性能 表现优于原生框架

GitHub对比测试Copilot智能框架与主流模型原生框架性能

我们将 GitHub Copilot agentic harness 与原生搭载领先模型的各类 harness 进行了基准测试。

在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench 和 Win-Hill 测试中固定模型与任务后,结果十分清晰:
✅ 任务解决能力与模型厂商原生 harness 相当
✅ 多数配置下生成 token 数量更少

💡 核心结论:GitHub Copilot 现已支持超过 20 款模型,你可以根据每个任务自由选择能效比,或是峰值质量。

查看完整数据 ⬇️

在 X 看原帖 ↗
1.7万1510526
行业趋势 · @bcherny▲ 1.1万

博主分享未来科技团队五种新型角色 archetype 划分

反思未来科技行业角色,提出五类不绑定职能的团队 archetype

阅读全文 →
1.1万34274219
大模型 · @minchoi▲ 1.1万

开发者分享基于多款大模型的全新AI开发工作流

海外开发者分享由多款顶级大模型串联组成的开发工作流

这完全就是我现在的新工作流:

实时研究/搜索 → Grok 4.3

规划与推理 → GPT-5.5 XHigh

编码 → GPT-5.5 XHigh w/ Codex Coding(前端)

编写并运行测试用例 → Opus 4.8 XHigh

调试 → GPT-5.5 w/ Codex

收藏这篇。

在 X 看原帖 ↗
1.1万65857
大语言模型 · @goodside▲ 7.2K

研究者分享对大语言模型催生AGI路径的个人观点

作者结合自身25年认知,分享LLM时代对AGI发展的看法

在大语言模型出现之前,我相信那个比喻——我记得是Yud提出的——通过聊天机器人造AI,就好比靠把蜡雕得越来越逼真来造真花。

过去25年的大部分时间里,我都认为我们会先通过强化学习达到递归自我improving,之后才会有AI学会英语。就这点而言,我觉得我们很幸运。AGI会来自我们能够字面意义上读取的「想法」。

同样重要的是,LLMs是一种成本高昂的工业流程,而非传统的个人电脑软件。AI没法像很多人原本假设的那样——如果它主要是代码的话——轻易自我改进。

这些结果都不是必然的。人们曾经担心AGI会在某人的地下室里诞生,然后一下子爆发。正因为它没有这样,我们才可以把能力逐步开放出来。我们能看到AI真正糟糕的地方。我们可以整合、调整,然后活在Kurzweilian式的拟合世界里。

即便有时候我们不清楚还能在这里待多久,我依然很感激我们走到了这一步。

在 X 看原帖 ↗
7.2K911022
📰 行业动态
行业动态 · @HeyGen▲ 2.2K

HeyGen用自家HyperFrames做了世博会开场视频

团队成员会到场设展位,还有两名成员将进行分享

我们用 HyperFrames 制作了 @aiDotEngineer World Fair 的官方开幕视频。我们团队也会到场线下参与,快来我们的展位找我们,留步观看 @Rames_Jusso 和 @liu8in 的演讲。我们现场见!

在 X 看原帖 ↗
2.2K2244
动态 · @emollick▲ 1.9万

没人知道OpenAI把GPT-6的标签留来干嘛

业内观察者提出了这个疑问,现在连GPT-5都还没正式发布,标签却提前留出来了

那么OpenAI把GPT-6这个标签留給哪个模型呢?

在 X 看原帖 ↗
1.9万119610
半导体 · @CKCapitalxx▲ 1.3万

AI服务器需要的内存是普通服务器的8-10倍

头部云厂商已经在这一块砸了数千亿,不少人还在看空内存赛道

阅读全文 →
1.3万511027
开发工具 · @connect24h▲ 3.0K

有人把一整套开发团队做成Claude Code工具集

包含CEO、设计师、工程师、QA共23个预设角色工具,不用自己拼prompt

这是Claude Code版的「把我的开发组织原样打包分发」项目。它把23个带有明确立场的工具加载到Claude Code中,分别让这些工具扮演CEO/设计师/工程经理/发布经理/文档工程师/QA。

虽然市面上已经有不少类似的工具集,但它真正厉害的地方不是提示词集合,而是将整个开发流程做成了斜杠命令,比如/office-hours→/plan-ceo-review→/review→/qa。

它会在新增代理之前,先明确角色和终止条件。这套机制很有参考价值,适合用来搭建你自己的AI代理。#AI駆動開発

在 X 看原帖 ↗
3.0K55151
动态 · @mevil_bhojani▲ 28.1万

一个终端就能看530多款AI工具的实时热度

还整理了361个模型的定价、最新论文、融资和岗位信息,排名没有赞助

当下AI圈真正热门的东西是什么?不是空喊概念,而是实时动态。🔥

收录了530+工具的热度榜💸

361款模型的定价信息📄

热门论文💰

融资信息+岗位机会

全部整合在一个终端里。排行榜从不接赞助。

在 X 看原帖 ↗
28.1万96023
工作流 · @TheAhmadOsman▲ 699

只要能命令行或API调用的活,都丢给GLM 5.2智能体做

开发者分享自己的日常工作流,重复自动化任务不用自己动手

如果一件事可以用 CLI 自动化,或是能通过 API 端点访问,我就会把它交给搭载 GLM 5.2 的智能体来帮我做。

在 X 看原帖 ↗
699152
机器人 · @CyberRobooo▲ 9.5K

土耳其发布了本国第一款工业人形机器人AKINCI-5

经过多年迭代,现在重点优化AI辅助行走和平衡能力

土耳其发布了本国首款工业人形机器人 AKINCI-5🇹🇷🤖。

经过多年迭代,它从 AKINCI-2、AKINCI-P 等早期原型发展而来,主打 AI 支持的行走、平衡与交互能力,目前处于测试和展示阶段。

这款机器人由土耳其知名软件公司 AKINSOFT 旗下的 AKINROBOTICS 制造,定位用于工厂、制造、仓储、采矿等挑战性环境。

此前,AKIN 已经推出过 ADA 系列轮式人形机器人,用于零售、医疗、客户协助等服务场景,比如 Ada-7。

早在 2017 年,该公司就在科尼亚省建成了当时全球首个人形机器人工厂,覆盖从零部件到整机的全流程研发与组装。

不过,围绕业务运营整合软硬件所能带来的长期价值是不可估量的。

在 X 看原帖 ↗
9.5K209421
开源工具 · @GithubProjects▲ 1.3万

开源语音工具WhisperX能把转写速度提70倍

还能精准标出每个词的时间戳,区分不同说话人,用大模型v2就能跑

WhisperX 提供快速自动语音识别,可通过批处理 Whisper 流水线生成准确的单词级时间戳和说话人分类。

- 使用 whisper large-v2 可实现 70 倍实时转录
- 通过 wav2vec2 强制对齐生成单词级时间戳
- 来自 pyannote-audio 的说话人分类功能
- VAD 预处理可减少幻觉,且不会降低词错误率

在此探索:

在 X 看原帖 ↗
1.3万12116109
行业动态 · Hacker News▲ 318

有人用Claude Code给自己的MRI看了第二意见

面对医疗检查结果拿不准,除了找医生读片,现在有人开始用AI工具做二次核对,看看会不会有遗漏

社区讨论:多数用户认为大模型目前不足以给出可靠的医学影像第二意见,真正的放射科专家普遍指出AI输出存在不足、误导性问题,也有用户明确表示不会用Claude这类模型分析图像。有用户分享个人经历称ChatGPT曾通过文本分析准确指出自己MRI报告的错误,另有从业者建议医生可以将合规大模型作为辅助工具,查看是否遗漏细节。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 142

谷歌限制了Meta使用自家Gemini大模型

两大科技巨头之间的AI合作已经生变,头部玩家的关系变化影响后续AI产品走向

社区讨论:不少人认为原标题存在误导,本次谷歌限制Meta使用Gemini是算力容量约束,并非限制Meta使用模型的功能或用途。有人质疑Meta本身自研大模型,却大量使用谷歌Gemini而非竞品,猜测是战略竞争或成本原因。还有人提出,未来获取顶级前沿大模型,会逐步对机构增加算力、合规等限制,个人用户的服务优先级会被降低。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 107

美国限制出口后,奥地利抢着邀请Anthropic落户欧盟

美国AI企业想出海的,有欧洲国家愿意开出优惠条件接走。能绕开本土出口限制,也能避开其他地区竞争。

社区讨论:多数人认可欧盟要维持AI研发前沿,必须自主布局AI研发与算力基础设施。有人指出欧盟法规虽然繁琐但监管规则清晰可预期,适合大额投资的前沿AI机构落地。也有人质疑落地可行性,认为美国会出台惩罚性出口限制,Anthropic创始人是美国爱国者不会愿意离开美国,还有人称就算拿到硬件也绕不开美国的出口管制。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 366

国内开源大模型GLM 5.2跑分超过了Claude

这次测试结果发布在Hacker News,引发了三百多个点赞和一百多条讨论,有人关注测试结果的真实性。

社区讨论:有资深开发者实测称GLM-5.2适配日常编程场景,成本远低于GPT。也有用户多次试用后认为GLM体验很差,该跑分结果读起来像推广软文。多名用户指出这次跑分对比不严谨:没有明确标注对标Claude的具体型号,把GLM单prompt和Claude Code多智能体系统对比,还混淆了Claude品牌和对应大模型的概念。

有用户预测美国接下来会出台出口管制,要求OpenRouter、HuggingFace下架部分中国开源模型。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 53

大语言模型能通过镜子测试吗?这问题吵翻了

讨论核心直指大语言模型是否拥有自我意识,关心AI发展方向,能在这里看到不同角度的思考

社区讨论:不少人认为当前对大语言模型做镜子测试的思路本身不合理,大语言模型本质是下一个token预测系统,现有对话交互模式经过指令调优,已经带有“做有用助手”的强偏差,剥离额外微调才能看清模型真实能力。有人提出更适合大语言模型的自我认知测试是让它说出关于自身训练数据的事实,还推测模型后训练阶段被调整过,不会准确回答这类问题。也有人质疑,不该因为大模型能聊天,就忘了它本身的本质,非要用镜子测试考察它。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 31

不用装Python,单文件Bash就能调用LLM

想在终端调用大模型,又不想装一堆依赖和运行环境。这个单文件脚本只用Bash、curl和jq就能完成基本操作

Bash4LLM 是一个单文件 Bash 封装工具,用于在终端内与大语言模型交互。

我创建它是因为我想要一个简单的工具,不需要安装 Python、Node 或任何其他运行环境就能运行。

它只依赖 Bash、curl 和 jq。你可以发送提示词、开启小型对话、逐行处理文件、流式输出,还能以 JSON 格式保存会话元数据。

我尽量让它安全、可预期:不使用系统 /tmp 目录,不使用 eval。

它默认支持 Groq,也可以添加其他提供商。

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 32

黑盒大模型也能被蒸馏出知识了

有人提出了针对黑盒大模型的知识蒸馏方法,相关讨论正在开源社区发酵。

行业动态 · Hacker News▲ 35

从零手写GPT-2规模大模型,全用纯C/CUDA

想进AI领域工作,不如从底层手写一个大模型,搞懂参数、数据和GPU的关系

大家好,在 anthropic 的 Fable 被禁之后,我开始开发 nanoeuler。我的雄心和梦想是进入 AI 领域,在 anthropic 工作。促使我创建 nanoeuler 的两个有趣原因是:(1) 调用大语言模型接口不代表理解它们的组成结构,(2) 在非常底层的层面开发大语言模型,可以理解参数、数据和模型增长之间的关联,以及 GPU 的工作原理,还有如何优化部分网络层。

于是我开始开发

在 HN 看讨论 ↗   原文 / 论文 ↗
行业动态 · Hacker News▲ 173

OpenAI Codex 无法排除敏感文件,问题还没修

用OpenAI Codex写代码的时候,还没法让它不碰敏感文件,这个问题从出现到现在一直没解决。

社区讨论:多数从业者认同不能依赖OpenAI官方的屏蔽列表解决问题,大语言模型行为不可预测,做不到完全排除敏感文件。大家公认正确解法是靠系统权限隔离,比如修改文件权限、将编码代理放在独立干净容器或云虚拟机中运行,让代理本身没有读取敏感文件的权限。有人提出该功能本就是画蛇添足,只会给用户虚假的安全感,还有用户指出这个问题已经拖了一年仍未修复。

在 HN 看讨论 ↗   原文 / 论文 ↗
🛠 工具产品
工具产品 · @lucas_flatwhite▲ 1.2万

之前被Meta关停的Papers with Code复活了

关注AI研究与Agent趋势的人,可以在这里一站式查看最新研究、对应代码、各任务排名,还能提交自己的论文。

关注AI研究/智能体趋势的朋友们一定要收藏。.! 📑

Papers with Code 这个服务之前被 Meta 收购后消失了,现在 Hugging Face 为社区全新重建,让它复活了。

你可以在同一个地方查看各类研究、代码实现,以及按任务分类的排行榜:
- 可以实时查看最新趋势论文(基于 arXiv + HF)
- 每篇论文都整理好了对应的代码实现链接
- 按任务/基准分类的排行榜都已上线(对比SOTA真的很方便)
- 按 Agents、OCR、Audio、Vision、Reasoning 等领域做了清晰整理
- 还支持论文提交功能,可以上传自己/团队的论文(AI会自动添加标签)

感觉往后我能从这里得到很多帮助。.

在 X 看原帖 ↗
1.2万49146208
工具产品 · @geekbb▲ 1.5万

不同AI工具终于能共享同一个记忆了

记忆存在自己的Cloudflare账号里,个人使用全程可走免费额度,数据全控制在自己手里。

这个好,一个开源内存层,让 Claude、ChatGPT、Cursor 和 Codex 共享一个大脑。 主要是它部署在 Cloudflare Workers 上,把记忆放在你自己 Cloudflare 账号里,对外走 MCP,数据落在用户自己的 D1、Vectorize、KV 与 Workers AI,强调语义检索而非字面匹配。个人规模可在 Cloudflare 免费额度内。

在 X 看原帖 ↗
1.5万31183316
📌 其他
新品发布 · @RoundtableSpace▲ 4.3K

不用GPU!CPU本地就能跑千亿级AI模型

微软开源了1位推理框架bitnet-cpp,跑100B参数模型推理比之前快6.17倍,能耗降低82.2%,无需依赖云端算力。

Microsoft 已经开源了 bitnet-cpp。

这是一个1位推理框架,可以在CPU上运行100B参数模型,不需要GPU。

推理速度提升6.17倍,能耗降低82.2%。

不需要云,不需要GPU,只用你的本地机器就行。

在 X 看原帖 ↗
4.3K1219
深度观点 · @mattshumer_▲ 3.3万

指望开源救模型?地缘这事开源也躲不开

有人觉得Fable/5.6受限后,开源能顶上来。但就算能限制美国模型,也没法放开让大家下载同级别中国模型,指望开源解决不了问题。

如果面对 Fable/5.6 被管控,你的回答是「开源会拯救我们」,那你完全没搞懂情况。

没错,政府可以禁止美国实验室提供前沿模型。但你觉得他们会让美国人下载性能相当的中国权重吗?对啊,当然会啦。(反话)

在 X 看原帖 ↗
3.3万1024720
实战经验 · @Mho_23▲ 1.7万

做一条AI动画广告只要12美分,不到3分钟

不用花大价钱请设计师等三周,传产品图加一句话文案,就能自动生成图、视频、配音、字幕全内容,Meta和短视频平台流量表现很好

阅读全文 →
1.7万112239343
播客 · @GoogleDeepMind▲ 10.4万

Google DeepMind播客探讨智能体经济兴起与发展

谷歌DeepMind播客探讨百万AI交互催生的智能体经济

当数百万 AI 智能体开始相互谈判、交易和委托工作时,会发生什么?@weballergy 做客我们的播客,和 @fryrsquared 一起探讨智能体经济的崛起——以及我们如何让智能体决策多元化,以避免 AI 群体思维。

时间轴:
00:00 开场
1:07 AI 智能体的定义
4:44 科学与研究领域的智能体探索
15:46 智能体之间的委托
22:46 智能体安全与陷阱
29:31 构建智能体经济
33:22 认知单一栽培
36:29 分布式智能

观看→ Spotify → Apple Podcasts → 或者在你常用的播客平台收听!🎧

在 X 看原帖 ↗
10.4万99781472
大语言模型 · @goodside▲ 7.2K

研究者分享对大语言模型催生AGI路径的个人观点

作者结合自身25年认知,分享LLM时代对AGI发展的看法

在大语言模型出现之前,我相信那个比喻——我记得是Yud提出的——通过聊天机器人造AI,就好比靠把蜡雕得越来越逼真来造真花。

过去25年的大部分时间里,我都认为我们会先通过强化学习达到递归自我improving,之后才会有AI学会英语。就这点而言,我觉得我们很幸运。AGI会来自我们能够字面意义上读取的「想法」。

同样重要的是,LLMs是一种成本高昂的工业流程,而非传统的个人电脑软件。AI没法像很多人原本假设的那样——如果它主要是代码的话——轻易自我改进。

这些结果都不是必然的。人们曾经担心AGI会在某人的地下室里诞生,然后一下子爆发。正因为它没有这样,我们才可以把能力逐步开放出来。我们能看到AI真正糟糕的地方。我们可以整合、调整,然后活在Kurzweilian式的拟合世界里。

即便有时候我们不清楚还能在这里待多久,我依然很感激我们走到了这一步。

在 X 看原帖 ↗
7.2K911022
大模型 · @minchoi▲ 1.1万

开发者分享基于多款大模型的全新AI开发工作流

海外开发者分享由多款顶级大模型串联组成的开发工作流

这完全就是我现在的新工作流:

实时研究/搜索 → Grok 4.3

规划与推理 → GPT-5.5 XHigh

编码 → GPT-5.5 XHigh w/ Codex Coding(前端)

编写并运行测试用例 → Opus 4.8 XHigh

调试 → GPT-5.5 w/ Codex

收藏这篇。

在 X 看原帖 ↗
1.1万65857
行业趋势 · @bcherny▲ 1.1万

博主分享未来科技团队五种新型角色 archetype 划分

反思未来科技行业角色,提出五类不绑定职能的团队 archetype

阅读全文 →
1.1万34274219
AI开发工具 · @github▲ 1.7万

GitHub测试Copilot智能框架性能 表现优于原生框架

GitHub对比测试Copilot智能框架与主流模型原生框架性能

我们将 GitHub Copilot agentic harness 与原生搭载领先模型的各类 harness 进行了基准测试。

在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench 和 Win-Hill 测试中固定模型与任务后,结果十分清晰:
✅ 任务解决能力与模型厂商原生 harness 相当
✅ 多数配置下生成 token 数量更少

💡 核心结论:GitHub Copilot 现已支持超过 20 款模型,你可以根据每个任务自由选择能效比,或是峰值质量。

查看完整数据 ⬇️

在 X 看原帖 ↗
1.7万1510526
开发工具 · @0xMorlex▲ 5.5K

Claude加五个循环组件可搭建自动化无人编码系统

这套自动化系统可自行发现并完成工作,无需开发者每步等待,四个前提条件避免无效重复

这套系统的核心是Claude搭配五个循环组件,能让AI自行发现并完成开发工作,开发者无需在每一步等待。多数人使用编码智能体时都需要逐步骤等待,无法实现全流程自动化。

这套系统包含五个核心组件。自动化模块按计划或事件启动循环;技能文件存储规则与项目上下文;状态文件记录进度,让每次运行都能从上一次停下的位置继续。

MCP连接器从GitHub、Linear、Slack等工具拉取工作;编写子智能体与检查子智能体将执行和验证过程分离。

搭建循环前,任务需要满足四个条件:重复频率、自动化检查、已保存状态、强制停止。缺少这些条件,智能体可能永远重复错误工作,消耗 tokens(代币),还会认同自身错误。

目标不是更频繁地给Claude发提示词,而是搭建一个能自主发现工作、完成工作、验证工作、知道何时停止的循环。

在 X 看原帖 ↗
5.5K2810044
大语言模型 · @LangChain▲ 1.0万

周一网单个AI代理尝试调用200余款工具引发问题

这种设计导致上下文污染,大语言模型混乱、成本上升,始终无法正常工作

协作平台mondaydotcom(周一网)曾使用单个AI代理处理200余款工具的调用。

设计带来了全范围的上下文污染。大语言模型因此出现识别混乱,运行成本持续上升,系统始终无法正常工作。

omribruchim介绍了用深度代理(Deep Agents)重新搭建Sidekick项目的相关内容,相关链接可查看原发布。

想要观看本次AI代理大会的精彩内容,可以访问Interrupt会议档案获取回放,相关链接可查看原发布。

在 X 看原帖 ↗
1.0万95526
开源 · @altryne▲ 2.1K

开源AI迎来第二次DeepSeek时刻,本次市场未出现崩盘

本周开源AI领域多个新进展,包括GLM 5.2等多个新模型与工具发布

开源人工智能迎来了第二次DeepSeek时刻,这一次市场没有崩盘。本周行业整体平静,但开源AI悄然缩小了与闭源模型的差距。

GLM 5.2是目前最优的MIT许可证开源模型,是本次DeepSeek时刻的核心事件。

Sakana Fugu模型击败了Fable模型。

OpenAI与博通(Broadcom)合作研发了代号为Jalapeno的芯片。

Claude Tag功能让Claude成为用户Slack平台中持续可用的协作伙伴。

支持1位量化的Unsloth版本GLM 5.2,可以在Mac Studio上运行。相关播客和通讯内容已经更新上线。

在 X 看原帖 ↗
2.1K694
量化交易 · @quantscience_▲ 1.5万

从零搭建Python算法交易系统完整路线图

涵盖基础学习、数据存储、研究建模、回测执行全流程,附免费推荐工具清单

阅读全文 →
1.5万19128284
量化交易 · @Ravindra_PE▲ 1.3万

开发者将自适应超级趋势指标转换为Python代码完成扫描

开发者对NIFTY 50成分股和3个指数的多时间维度完成扫描,回测不保证未来收益

开发者Ravindra_PE将自适应超级趋势指标(AST)转换为Python代码。他用该代码对NIFTY 50成分股和3个指数完成扫描,覆盖的时间维度分别是5分钟、15分钟、30分钟、1小时和1天。

自适应超级趋势指标的核心逻辑是通用方案并不适用于所有场景。如果使用者交易上述提及的标的,可以使用开发者建议的对应时间维度。

如果使用者交易其他标的,可以留言提问,开发者会更新对应最合适的时间维度。

回测结果永远无法保证未来收益,部分情况下偏差幅度可超过50%。在开展真实交易前,需要完成足够的前瞻性测试。

在 X 看原帖 ↗
1.3万21139209
人形机器人 · @TheHumanoidHub▲ 2.6万

人形机器人博主完成17天中国行程探访18家厂商

博主首次到访中国,走访内地4座城市,计划未来几日发布系列探访视频

阅读全文 →
2.6万914825
游戏引擎 · @AIWarper▲ 2.1K

虚幻引擎5.8 MCP完成AI生成Niagara模拟测试

下方区块由Claude根据单提示词生成,上方为Seedance 2.0制作内容,这是首次测试

这是虚幻引擎5.8 MCP的Niagara( Niagara,虚幻引擎的粒子模拟系统)模拟测试。测试画面下方的场景 Blockout(大体块白模)由Claude根据单个提示词生成。

测试画面上方的内容由Seedance 2.0制作完成。

这是该方向的首次测试。发布者计划后续尝试生成更干净的效果。

在 X 看原帖 ↗
2.1K46112

📖 深度解读

精选文章的中文编辑重写 · 按更新时间排列

▲ Top
把任何一条丢给知识库,它基于全站内容给你带引用的回答。
✦ 去问知识库

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部