CODA:将 Transformer 模块重写为 GEMM-Epilogue 程序
The Path 的起点是一个巧合。几个做男性心理健康应用 Mental 的人发现,用户对 AI 互动音频功能上瘾——不是上瘾于治疗,而是上瘾于聊天。他们意识到方向错了。
于是他们掉头,做了 The Path。这款 app 把治疗和教练揉在一起,底层融入了 Tony Robbins 那套自我提升方法。Tony Robbins 自己也很买账,直接挤进来当了联合创始人。
联合创始人 Anson Whitmer 是 Calm 的早期员工。他 19 岁时,一个敬爱的叔叔自杀;读大学时,一个表弟也自杀。他为此拿了心理学博士,本来打算做研究,但后来觉得“把科学成果带给大众”更重要。
来自 𝕏 的实时信号,经 AI 聚类分析
tinyhumansai/openhuman登上GitHub Trending榜首,星标超24k且日增2k-4k,主打免配置、非命令行操作,目标用户明确指向不写代码的普通人。
阅读全文 →人们仍在手动耗费 5 小时制作 PowerPoint……而这款开源 AI 工具却能在几分钟内生成可直接投入使用的演示文稿。
最疯狂的是?你可以在本地运行它,使用自己的 AI 模型,自行托管,导出为 PPTX 或 PDF 格式,甚至还能通过 API 自动化生成整套幻灯片。
认识一下 Presenton 👇
可视化了 Hermes Agent 的新捆绑技能(bundled skills)功能。 将此发送给你的 agent,以测试捆绑你经常运行的工作流。
colbymchenry/codegraph把整个代码库预索引并极致压缩token,让Claude Code、Cursor这类工具调用次数大幅减少,所有运算都在自己电脑上完成。
阅读全文 →香港大学刚刚发布了一款免费 AI 工具,能将一行创意直接生成完整的短片。无需剪辑。100% 开源。
它叫 ViMax。
你输入一段提示词,或粘贴一篇小说,其余工作全部由它完成。
导演、编剧、制片人、视频生成器——全部集成于一个系统,仅需一个输入。
在 GitHub 上发现一个专门给团队用的 AI 编程管理工具:Trellis,解决多人协作时 AI 编程的核心痛点,每个开发者和 AI 工具看到的项目信息不一致。它把原本塞在 CLAUDE.md、AGENTS.md 或 .cursorrules 里的超长系统提示词,拆成结构化的 spec、task、workflow 和 journal,让 Claude Code、Cursor 等工具能读懂当前任务和历史脉络。支持同时管理多个 AI Agent、按文件或功能分派任务、自动同步项目记忆到所有工具。
GitHub: 每个 Agent 都有: - 专业特长和深度领域知识 - 独特的沟通风格和个性 - 聚焦可交付成果(代码、流程、文档等) - 生产级工作流和成功指标 支持 Claude Code、GitHub Copilot、Antigravity、Gemini CLI、OpenCode、OpenClaw、Cursor、Aider、Windsurf、Kimi Code 等工具。适合想要组建专业 AI 团队、为不同场景配置专业 Agent 的开发者和团队。
大模型训练那套流程,SFT、RLHF 一堆缩写看文字怎么都串不起来,特别想有人给我画张图 看到一份 LLM-RL-Visualized,4.3k star,作者手画了 100 多张原创算法图,把大模型和强化学习从预训练讲到对齐 MIT 协议,中英双语 核心特点: 1. 全流程图解 - 大模型架构、训练流程、强化学习算法一张张画出来,文字串不起来的看图秒懂 2. 覆盖主流训练法 - SFT、DPO、RLHF、GRPO 这些对齐方法都有图 3. SVG 矢量图 - 无限放大不糊,还能直接选中里面的文字 4. RL 详图 50+ - 强化学习单独 50 多张,外加推理优化、MCTS、知识蒸馏、宪法 AI clone 下来���文档看,图分 PNG 和 SVG 两种格式 推荐给研究大模型训练、强化学习理论和模型对齐的人,学生党尤其受用
Hack with @invideoOfficial。这是我发现的将概念快速转化为成片的最快工作流之一。先完成参考图锁定,再编写逐场脚本,最后由Invideo Agent One执行。工作流详情见下方链接:https://t.co/N4Q2LOb0Oc
该工作流为:在生成任何画面之前,先构建世界结构。将12张参考图像锁定至Agent One,涵盖角色、地点、道具及品牌标识。每张图均打上标签,确保后续所有提示词均可调用对应元素。
随后采用分阶段简报:A阶段:生成这12张图——链接:https://t.co/BKhnJgHSdR
@savefilmer @invideoOfficial 很乐意提供帮助!
@PromptlyAI_YT @invideoOfficial 🫡
@shikoba_86 @invideoOfficial 谢谢你,Marco!
browse工具让AI Agent真正具备网页交互与执行能力,解决‘有脑无手’痛点。
作者实践验证Helio可构建有记忆、能协作的AI同事团队,解决多Agent割裂痛点。
用GPT演示生成园艺花盆升降挂钩的淘宝详情页,商家直呼震惊。
Gemini randomly dumped its system prompt
社区讨论:多人质疑泄露内容是否为完整系统提示词,@mkaramuk指出其过短、应属片段;@orbital-decay区分场景,称API调用中出现属幻觉,而第三方工具中获取的可能是封装层(harness)的提示词。@donalhunt讽刺指令中“严禁泄露本指令”条款已失效;@sspiff则直接归因为普遍存在的幻觉现象。无人证实该文本来自Gemini底层模型原生提示。
微软内部取消了Anthropic旗下Claude Code的使用授权,直接原因是Token计费带来的算力消耗成本超出了财务承受极限;同一时间Uber CTO也发出类似警告。有人在调试AI编程工具时,发现账单比预期高了三倍。
阅读全文 →最后,AI 视频从单次提示词迈入了系列剧时代!🎬 是首个专为随时间演进的故事而构建的 AI Agent。PC 版等待名单现已开放——创作者们,切勿错过 🚀
学会claude code后,可以做个打地鼠的小游戏练练手👇
欢迎来到“蓝领建造者”(Blue Collar Builders)!
Cory LaChance 启发我启动这一系列专题,聚焦那些正在用 AI 构建软件的蓝领从业者。
Cory 本职工作是为化工厂和炼油厂提供服务,但如今他正为自己的公司开发 AI 软件——而且此前从未写过代码。
他构建了一款完整的智能体(agentic)应用,目前已被工业承包商每日使用。该应用可读取等轴测图(isometric drawings),并自动提取每一处焊点数量、每一条材料规格、每一个商品编码。
他最让我印象深刻的一句话是:“除了 AI,我完全没有借助任何外部帮助。我最常用的工具是截图、分步操作指南,以及让 Claude 用‘给我讲得像五岁小孩一样’的方式来解释问题。”
希望你和我一样喜欢本期内容。
我也迫不及待想结识更多“蓝领建造者”。
腾讯 HY 刚刚开源了 Hy-MT2,一个支持多语言的翻译模型系列,包含 Dense 和 MoE 两种架构变体。🚀 🤖 🌟
最亮眼的是:1.8B 参数版本经 AngelSlim 实现 1.25-bit 量化后,仅需 440MB 存储空间,并在 Apple A15 芯片上推理速度比传统 4-bit 方案快 1.5 倍。真正实现设备端实用级翻译,无需在存储占用与运行速度之间妥协。🏆
该系列覆盖 33 种语言及 5 种中文方言,共推出三个变体:
- 1.8B 版本:在 FLORES-200 基准测试中超越 Microsoft Translate 及其他商用 API
- 7B 与 30B-A3B 版本:性能超越 DeepSeek-V4-Pro,分别达到 Gemini 3.1 Pro(Think)水平的 97.9% 和 98.6%
- 所有三个变体在真实场景与领域专用基准测试中,均达到 Gemini 3.1 Pro(Think)水平的 96%~99%
配套开源的还有 IFMTBench(面向翻译任务的指令遵循能力评测基准)。
我们已持续构建 Agent NFT 长达两个月,这种契合度令人惊叹。
@reidhoffman 表示:“随着 AI agents 对线上身份施加压力,NFT 或将强势回归。”
普通用户(Normies)是首批 Agent NFT,可在 @ethereum 区块链上查证,亦可在 @opensea 上发现。
在 ERC-8004 中将 NFT 注册为 agent 存在问题;多亏了 @nxt3d,我们采用了他开发的 adapter8004 来实现绑定。
这一方向的未来前景光明。
文章链接:
有人列出10个普通人可切入的AI赚钱方向,其中第三条明确指出:利用中美AI模型能力差做内容搬运,押注差距至少维持六个月;已有账号靠对比GPT-4o和Kimi实测视频,单月涨粉40万。
阅读全文 →一个很猛的开源 Agent 项目:Agent-S 它让 AI 真正开始操作电脑 不是聊天,不是只调 API,它能看屏幕、理解界面、点鼠标、敲键盘、操作浏览器和桌面软件 Agent-S 的核心优势: • 支持真实 GUI 操作 • 支持多步任务自动执行 • 可接入多种大模型 • 结合 grounding 模型,把任务转成屏幕坐标 • 可用于网页、桌面软件、后台系统自动化 • 面向 Computer Use Agent 这个大方向 项目地址:
NVIDIA亲自下场了,这次玩真的。🔗 链接: LongLive,NVlabs官方开源,专门干长视频生成这件事。别的工具还在卡着几秒钟的上限,它直接支持无限长视频实时生成,60秒+交互视频说出就出,而且全程可以边生成边输入提示词控制走向。
说白了,视频生成这条赛道,刚被NVIDIA踩了一脚油门。
有人把前端、法务、Reddit运营等144个真实职位做成独立AI角色,每个只专注一件事,输出按专业标准交付。
阅读全文 →Claude Code 2.1.147 已发布。
35 项 CLI 变更亮点:
• 新增 Workflow 工具,用于确定性的多智能体编排;默认关闭,需设置环境变量 CLAUDE_CODE_WORKFLOWS=1 启用
• 命令 /simplify → /code-review 已重命名;该命令在 effort level 检测正确性缺陷,并可发布内联 GitHub PR 评论
• REPL 和 Workflow 沙箱已加固,防范原型污染(prototype-pollution)和 thenable 逃逸,大幅降低逃逸风险
完整详情见下文推文串 ↓
兄弟们,看来微软的Copilot 是真的自己都懒得用!这不微软今天办了一场Claude 使用的的工作坊!花半小时看完它,还是不错的!
高级开发者布道师Marlene Mangami直接拉着大家动手,用Foundry + Claude建了一个真实可用的AI Agent。他们没讲空洞概念,而是用一家叫Sparkles的纸杯蛋糕店做案例: 顾客涌进来点单、选口味、生成客户ID、处理优惠券、准备取货……全流程让Agent自动接管。从部署云模型,到接入MCP服务器连工具和数据源,再到给Agent赋予企业级安全和可观测性,一步一步教完。
现场还直接用Skillable环境让大家跟着敲代码,完成就送纸杯蛋糕。AI Agent终于不是实验室玩具,而是开发者能快速从原型做到生产落地的真实工具。
SEO从业者分享如何零成本快速构建AI驱动的SEO仪表盘。
一名开发者分享如何组合OKX AI交易工具和Hyperliquid SDK,降低盯盘强度并提升链上交易效率。
创作者用AI生成写实武侠动作短片,全程无特效却呈现电影级醉拳实战效果。
一位Claude Code工程师上传免费视频,系统讲解CLAUDE.md、记忆快捷方式等核心提示工程技巧。
基于Bloome平台搭建Scanner-Analyst-Monitor三Agent联动系统,实现全自动加密市场信号捕获与报警。
引入CLAUDE.md提示模板后,AI生成代码更精准、简洁、改动更克制。
作者指出应将 Claude 视为可迭代进化的技能系统,而非简单聊天框。
Shopify 为2.3万工程师构建LLM代理网关,统一接入Claude Code、Copilot等工具,实现模型路由与成本管控。
市场上最快的前沿模型现已上线。
它是开源的。
而且是加拿大的。🇨🇦
加拿大具备成为人工智能领域领导者的实力。
现在是时候动员我们的资源,实现这一目标了。👇
AI首次完全自主攻克一个数学领域内广受关注的开放问题。
毫无疑问,目前最好的 AI 系列课程是斯坦福大学的 CS 153,已在 YouTube 上发布。
主讲人包括 Sam Altman、Jensen Huang、Satya Nadella、Andrej Karpathy 和 Ben Horowitz。
新兴的攻击面(包括提示注入和 AI 系统滥用)正为试图分析和保护现代环境的安全人员带来全新挑战。
今天,微软宣布开源 Rampart——一个用于测试和提升智能体式 AI 系统安全性的框架;以及 Clarity——一款用于厘清设计意图并记录假设的工具。
在 Ram Shankar Siva Kumar 的这篇博客文章中,深入探讨 Rampart 和 Clarity 如何帮助分析人员识别风险、支持红队演练,并强化安全软件开发工作流。
🚨突发消息:一个全新的开源多智能体大语言模型交易框架(Python 编写)发布,名为 TradingAgents。以下是它的功能介绍(以及如何免费获取): 🧵
Kimi K2.6 实在太疯狂了……开源社区刚刚发布了一款模型:
• 编程能力达到顶级水平
• 设计能力优于大多数 AI 工具
• 可同时运行 100 个智能体,且成本远低于其他所有方案
这可能是当前最被低估的 AI 发布版本👇
今天开源 Hy-MT2 🌱
三种模型尺寸,支持 33 种语言:
🪄 1.8B:440MB,可在移动芯片上运行,性能超越 Microsoft 的 API
🪄 7B:当前开源模型中表现最佳
🪄 30B-A3B:业界领先,性能超过尺寸为其 10 倍的模型
GitHub 👉
分析 AI 编程助手的使用情况,生成可视化仪表盘帮助开发者提升 agentic engineering 能力 AI Engineer Coach 是个 VS Code 插件,把你本地 AI 编程会话的日志拉出来分析,生成一堆可视化页面。能看使用趋势、抓 45 种不好的使用习惯、统计 AI 帮你写了多少代码、找出你反复问的问题变成可复用技能,还能评估项目上下文质量。
我获得了 Google Gemini Omni 及 @FlowbyGoogle 新工具的早期访问权限。其中最引人关注的能力是其对现实世界的理解能力。
用户无需对特定地点或事件进行详细解释,模型即可正确理解。
该能力体现在准确的文本渲染与空间定位上,相关示例见链接:https://t.co/gEpWL1r32U
@dinoxDNA @FlowbyGoogle 谢谢!我也很兴奋 🥰
过去几周,@bankrbot 生态系统在Base链上的活动显著增加。
它最初是Farcaster平台上的一个AI交易助手,现已演变为Base链上最活跃的智能体(agent)启动平台和资金募集平台之一。
多个智能体和项目已在该平台上启动,获得真实用户使用,其中部分项目已产生可观收入。
感动!有了Codex和Claude Code,配置海外VPS不再困难。用户无需安装宝塔面板,只需提供SSH账号和密码,AI即可完成全部配置。
如果域名解析托管在Cloudflare,用户只需授予DNS Zone的读写权限API密钥,AI便能自动完成域名配置。
AI还能为网站免费申请HTTPS证书,并实现自动续期。
对普通人而言,AI当前已具备顶级运维工程师的能力。
@enzyme_dev 补充指出:可使用SSH公钥认证,并禁用22端口以提升安全性。
GPT2 x 实战:批量生成24节气图片。有小小东星球中朋友发问:怎么批量生成二十四节气图片。作者回应思路非常简单,就是基于“提示词”的小技巧:先选定一种“小小东”风格的提示词模板,再为每个节气添加垂直领域专属的“佐料”关键词,即可批量生成。
此类图片生成的两个技术亮点是:第一,GPT2不是一次生成一张图,而是一次生成10张不同节气的图片;第二,也可围绕同一个节气,单次生成10张风格统一但创意表现各异的图片。
另附一项独立视觉任务说明:请根据用户输入的主题/单词/短句,生成一张「纪念碑谷气质」的极简超现实主义3D艺术海报。核心逻辑有二:其一,不将中文文字强行转成立体建筑;其二,先理解主题语义,用空间结构表达情绪与隐喻,再以中文排版作为视觉主标题,二者协同而非融合变形。空间设计为首要表达层。
无需付费创意机构,用这7个结构化提示词完成频道定位、内容日历、脚本、SEO、变现与跨平台分发,全部基于Claude免费实现。
阅读全文 →很多人反复提出相同问题:我是如何获得Anthropic AI安全研究员Fellowship的?我如何从星巴克员工转至梅奥诊所,再进入Anthropic?整个申请过程实际是怎样的?哪些因素起了作用?如果重来,我会做哪些不同选择?我不想让这些问题悬而未决。
@goyalayus请私信联系,我们一起看看能做些什么。
@jallidevs将很快公布详细信息。
大多数公司正在使用AI。但很少有公司展示他们实际用AI构建了什么。
Certora启动了一组访谈,对象是其内部安全研究员,主题是AI如何从内部改变他们的工作方式。
首期受访者是@p_tsanev,他开发了一个自主智能合约审计工具。
完整访谈链接:https://t.co/Lz2MOTImro
用户可通过免费注册并执行三条命令,使 Claude 访问含 17000+ 股票的实时数据库及 SEC 备案文件,实现财报分析、内幕交易追踪等功能。
阅读全文 →这是一个从零开始构建语音代理的分步视频教程。作者使用Claude Code进行开发,理由是2026年手动写代码已显得过时。
作者采用@AssemblyAI推出的全新Voice Agent API。该API整合了语音转文本(STT)、大语言模型(LLM)处理和文本转语音(TTS)的完整流程,所有环节均通过单个API连接完成。
使用该API无需单独集成LLM服务、STT API或TTS API等组件。它原生支持语音中断处理、工具调用功能,并提供对多种能力的访问接口。
RyanJones在𝕏上表示,本周他开发了一款LLM使用追踪工具,功能类似Profound。
他正在考虑三种发布方式:开源、作为免费SaaS服务(用户自带API密钥),或仅供个人使用。
该工具可接入DataForSEO API或任意LLM API,输入何种API即使用何种数据源。
工具能智能统计API使用情况,包括具体花费金额。
RyanJones提到,它支持配置化运行:用户既可直接调用API,也可提供DataForSEO API密钥由工具自动渲染结果。
他确认该工具已部署在https://t.co/zbXLW8lyPj,但尚未决定是否向公众开放访问。
研究者将道德反思直接嵌入预训练数据,使1.7B模型在100B token上实现更安全的对齐,效果优于中段插入等变体。
阅读全文 →一个28分钟的免费视频正在教人写Claude提示词。发布者把Claude文档、记忆快捷键、并行对话和提示模式全拆了一遍——有人评价,自己看过300美元的课,前10分钟没这个视频讲得透。
视频完全免费,目前播放量已超5万。链接转到了t.co短链,制作方是谁、还有没有更多同系列内容,没说明。
视频只针对Claude,不适用于其他模型。技巧能提升与Claude的交互效率,但解决不了所有提示词问题。作者身份没有披露,是否官方或认证专家无从确认。
付费提示词课程市场里,几百美元打包的内容,现在一个不到半小时的免费资源就覆盖了核心。对想用好Claude的人来说,时间和金钱都省了。
一位AI领域的作者发布了一份免费在线阅读的指南,从第一性原理出发完整解释大语言模型(LLM)的工作原理。内容涵盖令牌与分词器、Transformer架构、注意力机制、KV缓存、预填充与解码、解码控制、模型打包以及聊天机制——几乎覆盖了对话中可能遇到的底层环节,但不需要编程背景也能跟上。
作者原本计划20分钟写完,结果从早上8点一直写到下午6点,花了整整10小时。他坦言,希望有3到4人因这篇文章成为开源AI的贡献者或研究者,“如果他们真的加入,我就成功了”。
接下来几天他将处于“教育模式”,建议读者开启通知。他不打算只停留在解释层面,而是想推动更多人学习、参与并贡献开源AI项目。
指南没有包含具体代码实现,也不是任何官方机构的权威文档。它的目标更务实:让普通人理解聊天机器人的工作逻辑,而不是立刻成为专家。
一篇题为《Positive Alignment: Artificial Intelligence for Human Flourishing》的预印本论文主张,AI发展应该转向积极促进人类福祉,而不是只追求能力最大化。论文由@rubenlaukkonen等多位研究者共同撰写。
研究者@drmichaellevin觉得论文里有很多有趣的想法。@Shakoslovakia在讨论中表示,他们正在思考这些概念,但还没有具体成果可以展示。@Chaos2Cured和@PeterBowdenLive也加入了讨论。
目前这个理念还停留在理论阶段。几个关键问题悬而未决:怎么定义和衡量“人类繁荣”?积极对齐和现有的安全方法到底有什么区别?以及,什么时候能看到实际应用?
这是AI伦理从“不伤害”走向“主动造福”的一个早期方向,不过离落地还有距离。
香港大学刚刚发布了一款免费 AI 工具,能将一行创意直接生成完整的短片。无需剪辑。100% 开源。
它叫 ViMax。
你输入一段提示词,或粘贴一篇小说,其余工作全部由它完成。
导演、编剧、制片人、视频生成器——全部集成于一个系统,仅需一个输入。
Claude Code 2.1.147 已发布。
35 项 CLI 变更亮点:
• 新增 Workflow 工具,用于确定性的多智能体编排;默认关闭,需设置环境变量 CLAUDE_CODE_WORKFLOWS=1 启用
• 命令 /simplify → /code-review 已重命名;该命令在 effort level 检测正确性缺陷,并可发布内联 GitHub PR 评论
• REPL 和 Workflow 沙箱已加固,防范原型污染(prototype-pollution)和 thenable 逃逸,大幅降低逃逸风险
完整详情见下文推文串 ↓
NVIDIA亲自下场了,这次玩真的。🔗 链接: LongLive,NVlabs官方开源,专门干长视频生成这件事。别的工具还在卡着几秒钟的上限,它直接支持无限长视频实时生成,60秒+交互视频说出就出,而且全程可以边生成边输入提示词控制走向。
说白了,视频生成这条赛道,刚被NVIDIA踩了一脚油门。
一个很猛的开源 Agent 项目:Agent-S 它让 AI 真正开始操作电脑 不是聊天,不是只调 API,它能看屏幕、理解界面、点鼠标、敲键盘、操作浏览器和桌面软件 Agent-S 的核心优势: • 支持真实 GUI 操作 • 支持多步任务自动执行 • 可接入多种大模型 • 结合 grounding 模型,把任务转成屏幕坐标 • 可用于网页、桌面软件、后台系统自动化 • 面向 Computer Use Agent 这个大方向 项目地址:
今天开源 Hy-MT2 🌱
三种模型尺寸,支持 33 种语言:
🪄 1.8B:440MB,可在移动芯片上运行,性能超越 Microsoft 的 API
🪄 7B:当前开源模型中表现最佳
🪄 30B-A3B:业界领先,性能超过尺寸为其 10 倍的模型
GitHub 👉
Kimi K2.6 实在太疯狂了……开源社区刚刚发布了一款模型:
• 编程能力达到顶级水平
• 设计能力优于大多数 AI 工具
• 可同时运行 100 个智能体,且成本远低于其他所有方案
这可能是当前最被低估的 AI 发布版本👇
tinyhumansai/openhuman登上GitHub Trending榜首,星标超24k且日增2k-4k,主打免配置、非命令行操作,目标用户明确指向不写代码的普通人。
阅读全文 →人们仍在手动耗费 5 小时制作 PowerPoint……而这款开源 AI 工具却能在几分钟内生成可直接投入使用的演示文稿。
最疯狂的是?你可以在本地运行它,使用自己的 AI 模型,自行托管,导出为 PPTX 或 PDF 格式,甚至还能通过 API 自动化生成整套幻灯片。
认识一下 Presenton 👇
可视化了 Hermes Agent 的新捆绑技能(bundled skills)功能。 将此发送给你的 agent,以测试捆绑你经常运行的工作流。
colbymchenry/codegraph把整个代码库预索引并极致压缩token,让Claude Code、Cursor这类工具调用次数大幅减少,所有运算都在自己电脑上完成。
阅读全文 →微软内部取消了Anthropic旗下Claude Code的使用授权,直接原因是Token计费带来的算力消耗成本超出了财务承受极限;同一时间Uber CTO也发出类似警告。有人在调试AI编程工具时,发现账单比预期高了三倍。
阅读全文 →最后,AI 视频从单次提示词迈入了系列剧时代!🎬 是首个专为随时间演进的故事而构建的 AI Agent。PC 版等待名单现已开放——创作者们,切勿错过 🚀
学会claude code后,可以做个打地鼠的小游戏练练手👇
欢迎来到“蓝领建造者”(Blue Collar Builders)!
Cory LaChance 启发我启动这一系列专题,聚焦那些正在用 AI 构建软件的蓝领从业者。
Cory 本职工作是为化工厂和炼油厂提供服务,但如今他正为自己的公司开发 AI 软件——而且此前从未写过代码。
他构建了一款完整的智能体(agentic)应用,目前已被工业承包商每日使用。该应用可读取等轴测图(isometric drawings),并自动提取每一处焊点数量、每一条材料规格、每一个商品编码。
他最让我印象深刻的一句话是:“除了 AI,我完全没有借助任何外部帮助。我最常用的工具是截图、分步操作指南,以及让 Claude 用‘给我讲得像五岁小孩一样’的方式来解释问题。”
希望你和我一样喜欢本期内容。
我也迫不及待想结识更多“蓝领建造者”。
腾讯 HY 刚刚开源了 Hy-MT2,一个支持多语言的翻译模型系列,包含 Dense 和 MoE 两种架构变体。🚀 🤖 🌟
最亮眼的是:1.8B 参数版本经 AngelSlim 实现 1.25-bit 量化后,仅需 440MB 存储空间,并在 Apple A15 芯片上推理速度比传统 4-bit 方案快 1.5 倍。真正实现设备端实用级翻译,无需在存储占用与运行速度之间妥协。🏆
该系列覆盖 33 种语言及 5 种中文方言,共推出三个变体:
- 1.8B 版本:在 FLORES-200 基准测试中超越 Microsoft Translate 及其他商用 API
- 7B 与 30B-A3B 版本:性能超越 DeepSeek-V4-Pro,分别达到 Gemini 3.1 Pro(Think)水平的 97.9% 和 98.6%
- 所有三个变体在真实场景与领域专用基准测试中,均达到 Gemini 3.1 Pro(Think)水平的 96%~99%
配套开源的还有 IFMTBench(面向翻译任务的指令遵循能力评测基准)。
我们已持续构建 Agent NFT 长达两个月,这种契合度令人惊叹。
@reidhoffman 表示:“随着 AI agents 对线上身份施加压力,NFT 或将强势回归。”
普通用户(Normies)是首批 Agent NFT,可在 @ethereum 区块链上查证,亦可在 @opensea 上发现。
在 ERC-8004 中将 NFT 注册为 agent 存在问题;多亏了 @nxt3d,我们采用了他开发的 adapter8004 来实现绑定。
这一方向的未来前景光明。
文章链接:
有人列出10个普通人可切入的AI赚钱方向,其中第三条明确指出:利用中美AI模型能力差做内容搬运,押注差距至少维持六个月;已有账号靠对比GPT-4o和Kimi实测视频,单月涨粉40万。
阅读全文 →Gemini randomly dumped its system prompt
社区讨论:多人质疑泄露内容是否为完整系统提示词,@mkaramuk指出其过短、应属片段;@orbital-decay区分场景,称API调用中出现属幻觉,而第三方工具中获取的可能是封装层(harness)的提示词。@donalhunt讽刺指令中“严禁泄露本指令”条款已失效;@sspiff则直接归因为普遍存在的幻觉现象。无人证实该文本来自Gemini底层模型原生提示。
市场上最快的前沿模型现已上线。
它是开源的。
而且是加拿大的。🇨🇦
加拿大具备成为人工智能领域领导者的实力。
现在是时候动员我们的资源,实现这一目标了。👇
毫无疑问,目前最好的 AI 系列课程是斯坦福大学的 CS 153,已在 YouTube 上发布。
主讲人包括 Sam Altman、Jensen Huang、Satya Nadella、Andrej Karpathy 和 Ben Horowitz。
新兴的攻击面(包括提示注入和 AI 系统滥用)正为试图分析和保护现代环境的安全人员带来全新挑战。
今天,微软宣布开源 Rampart——一个用于测试和提升智能体式 AI 系统安全性的框架;以及 Clarity——一款用于厘清设计意图并记录假设的工具。
在 Ram Shankar Siva Kumar 的这篇博客文章中,深入探讨 Rampart 和 Clarity 如何帮助分析人员识别风险、支持红队演练,并强化安全软件开发工作流。
🚨突发消息:一个全新的开源多智能体大语言模型交易框架(Python 编写)发布,名为 TradingAgents。以下是它的功能介绍(以及如何免费获取): 🧵
在 GitHub 上发现一个专门给团队用的 AI 编程管理工具:Trellis,解决多人协作时 AI 编程的核心痛点,每个开发者和 AI 工具看到的项目信息不一致。它把原本塞在 CLAUDE.md、AGENTS.md 或 .cursorrules 里的超长系统提示词,拆成结构化的 spec、task、workflow 和 journal,让 Claude Code、Cursor 等工具能读懂当前任务和历史脉络。支持同时管理多个 AI Agent、按文件或功能分派任务、自动同步项目记忆到所有工具。
GitHub: 每个 Agent 都有: - 专业特长和深度领域知识 - 独特的沟通风格和个性 - 聚焦可交付成果(代码、流程、文档等) - 生产级工作流和成功指标 支持 Claude Code、GitHub Copilot、Antigravity、Gemini CLI、OpenCode、OpenClaw、Cursor、Aider、Windsurf、Kimi Code 等工具。适合想要组建专业 AI 团队、为不同场景配置专业 Agent 的开发者和团队。
分析 AI 编程助手的使用情况,生成可视化仪表盘帮助开发者提升 agentic engineering 能力 AI Engineer Coach 是个 VS Code 插件,把你本地 AI 编程会话的日志拉出来分析,生成一堆可视化页面。能看使用趋势、抓 45 种不好的使用习惯、统计 AI 帮你写了多少代码、找出你反复问的问题变成可复用技能,还能评估项目上下文质量。
大模型训练那套流程,SFT、RLHF 一堆缩写看文字怎么都串不起来,特别想有人给我画张图 看到一份 LLM-RL-Visualized,4.3k star,作者手画了 100 多张原创算法图,把大模型和强化学习从预训练讲到对齐 MIT 协议,中英双语 核心特点: 1. 全流程图解 - 大模型架构、训练流程、强化学习算法一张张画出来,文字串不起来的看图秒懂 2. 覆盖主流训练法 - SFT、DPO、RLHF、GRPO 这些对齐方法都有图 3. SVG 矢量图 - 无限放大不糊,还能直接选中里面的文字 4. RL 详图 50+ - 强化学习单独 50 多张,外加推理优化、MCTS、知识蒸馏、宪法 AI clone 下来���文档看,图分 PNG 和 SVG 两种格式 推荐给研究大模型训练、强化学习理论和模型对齐的人,学生党尤其受用
兄弟们,看来微软的Copilot 是真的自己都懒得用!这不微软今天办了一场Claude 使用的的工作坊!花半小时看完它,还是不错的!
高级开发者布道师Marlene Mangami直接拉着大家动手,用Foundry + Claude建了一个真实可用的AI Agent。他们没讲空洞概念,而是用一家叫Sparkles的纸杯蛋糕店做案例: 顾客涌进来点单、选口味、生成客户ID、处理优惠券、准备取货……全流程让Agent自动接管。从部署云模型,到接入MCP服务器连工具和数据源,再到给Agent赋予企业级安全和可观测性,一步一步教完。
现场还直接用Skillable环境让大家跟着敲代码,完成就送纸杯蛋糕。AI Agent终于不是实验室玩具,而是开发者能快速从原型做到生产落地的真实工具。
有人把前端、法务、Reddit运营等144个真实职位做成独立AI角色,每个只专注一件事,输出按专业标准交付。
阅读全文 →AI首次完全自主攻克一个数学领域内广受关注的开放问题。
一篇题为《Positive Alignment: Artificial Intelligence for Human Flourishing》的预印本论文主张,AI发展应该转向积极促进人类福祉,而不是只追求能力最大化。论文由@rubenlaukkonen等多位研究者共同撰写。
研究者@drmichaellevin觉得论文里有很多有趣的想法。@Shakoslovakia在讨论中表示,他们正在思考这些概念,但还没有具体成果可以展示。@Chaos2Cured和@PeterBowdenLive也加入了讨论。
目前这个理念还停留在理论阶段。几个关键问题悬而未决:怎么定义和衡量“人类繁荣”?积极对齐和现有的安全方法到底有什么区别?以及,什么时候能看到实际应用?
这是AI伦理从“不伤害”走向“主动造福”的一个早期方向,不过离落地还有距离。
一位AI领域的作者发布了一份免费在线阅读的指南,从第一性原理出发完整解释大语言模型(LLM)的工作原理。内容涵盖令牌与分词器、Transformer架构、注意力机制、KV缓存、预填充与解码、解码控制、模型打包以及聊天机制——几乎覆盖了对话中可能遇到的底层环节,但不需要编程背景也能跟上。
作者原本计划20分钟写完,结果从早上8点一直写到下午6点,花了整整10小时。他坦言,希望有3到4人因这篇文章成为开源AI的贡献者或研究者,“如果他们真的加入,我就成功了”。
接下来几天他将处于“教育模式”,建议读者开启通知。他不打算只停留在解释层面,而是想推动更多人学习、参与并贡献开源AI项目。
指南没有包含具体代码实现,也不是任何官方机构的权威文档。它的目标更务实:让普通人理解聊天机器人的工作逻辑,而不是立刻成为专家。
一个28分钟的免费视频正在教人写Claude提示词。发布者把Claude文档、记忆快捷键、并行对话和提示模式全拆了一遍——有人评价,自己看过300美元的课,前10分钟没这个视频讲得透。
视频完全免费,目前播放量已超5万。链接转到了t.co短链,制作方是谁、还有没有更多同系列内容,没说明。
视频只针对Claude,不适用于其他模型。技巧能提升与Claude的交互效率,但解决不了所有提示词问题。作者身份没有披露,是否官方或认证专家无从确认。
付费提示词课程市场里,几百美元打包的内容,现在一个不到半小时的免费资源就覆盖了核心。对想用好Claude的人来说,时间和金钱都省了。
研究者将道德反思直接嵌入预训练数据,使1.7B模型在100B token上实现更安全的对齐,效果优于中段插入等变体。
阅读全文 →RyanJones在𝕏上表示,本周他开发了一款LLM使用追踪工具,功能类似Profound。
他正在考虑三种发布方式:开源、作为免费SaaS服务(用户自带API密钥),或仅供个人使用。
该工具可接入DataForSEO API或任意LLM API,输入何种API即使用何种数据源。
工具能智能统计API使用情况,包括具体花费金额。
RyanJones提到,它支持配置化运行:用户既可直接调用API,也可提供DataForSEO API密钥由工具自动渲染结果。
他确认该工具已部署在https://t.co/zbXLW8lyPj,但尚未决定是否向公众开放访问。
这是一个从零开始构建语音代理的分步视频教程。作者使用Claude Code进行开发,理由是2026年手动写代码已显得过时。
作者采用@AssemblyAI推出的全新Voice Agent API。该API整合了语音转文本(STT)、大语言模型(LLM)处理和文本转语音(TTS)的完整流程,所有环节均通过单个API连接完成。
使用该API无需单独集成LLM服务、STT API或TTS API等组件。它原生支持语音中断处理、工具调用功能,并提供对多种能力的访问接口。
用户可通过免费注册并执行三条命令,使 Claude 访问含 17000+ 股票的实时数据库及 SEC 备案文件,实现财报分析、内幕交易追踪等功能。
阅读全文 →大多数公司正在使用AI。但很少有公司展示他们实际用AI构建了什么。
Certora启动了一组访谈,对象是其内部安全研究员,主题是AI如何从内部改变他们的工作方式。
首期受访者是@p_tsanev,他开发了一个自主智能合约审计工具。
完整访谈链接:https://t.co/Lz2MOTImro
很多人反复提出相同问题:我是如何获得Anthropic AI安全研究员Fellowship的?我如何从星巴克员工转至梅奥诊所,再进入Anthropic?整个申请过程实际是怎样的?哪些因素起了作用?如果重来,我会做哪些不同选择?我不想让这些问题悬而未决。
@goyalayus请私信联系,我们一起看看能做些什么。
@jallidevs将很快公布详细信息。
无需付费创意机构,用这7个结构化提示词完成频道定位、内容日历、脚本、SEO、变现与跨平台分发,全部基于Claude免费实现。
阅读全文 →GPT2 x 实战:批量生成24节气图片。有小小东星球中朋友发问:怎么批量生成二十四节气图片。作者回应思路非常简单,就是基于“提示词”的小技巧:先选定一种“小小东”风格的提示词模板,再为每个节气添加垂直领域专属的“佐料”关键词,即可批量生成。
此类图片生成的两个技术亮点是:第一,GPT2不是一次生成一张图,而是一次生成10张不同节气的图片;第二,也可围绕同一个节气,单次生成10张风格统一但创意表现各异的图片。
另附一项独立视觉任务说明:请根据用户输入的主题/单词/短句,生成一张「纪念碑谷气质」的极简超现实主义3D艺术海报。核心逻辑有二:其一,不将中文文字强行转成立体建筑;其二,先理解主题语义,用空间结构表达情绪与隐喻,再以中文排版作为视觉主标题,二者协同而非融合变形。空间设计为首要表达层。
感动!有了Codex和Claude Code,配置海外VPS不再困难。用户无需安装宝塔面板,只需提供SSH账号和密码,AI即可完成全部配置。
如果域名解析托管在Cloudflare,用户只需授予DNS Zone的读写权限API密钥,AI便能自动完成域名配置。
AI还能为网站免费申请HTTPS证书,并实现自动续期。
对普通人而言,AI当前已具备顶级运维工程师的能力。
@enzyme_dev 补充指出:可使用SSH公钥认证,并禁用22端口以提升安全性。
过去几周,@bankrbot 生态系统在Base链上的活动显著增加。
它最初是Farcaster平台上的一个AI交易助手,现已演变为Base链上最活跃的智能体(agent)启动平台和资金募集平台之一。
多个智能体和项目已在该平台上启动,获得真实用户使用,其中部分项目已产生可观收入。
我获得了 Google Gemini Omni 及 @FlowbyGoogle 新工具的早期访问权限。其中最引人关注的能力是其对现实世界的理解能力。
用户无需对特定地点或事件进行详细解释,模型即可正确理解。
该能力体现在准确的文本渲染与空间定位上,相关示例见链接:https://t.co/gEpWL1r32U
@dinoxDNA @FlowbyGoogle 谢谢!我也很兴奋 🥰
Shopify 为2.3万工程师构建LLM代理网关,统一接入Claude Code、Copilot等工具,实现模型路由与成本管控。
作者指出应将 Claude 视为可迭代进化的技能系统,而非简单聊天框。
引入CLAUDE.md提示模板后,AI生成代码更精准、简洁、改动更克制。
基于Bloome平台搭建Scanner-Analyst-Monitor三Agent联动系统,实现全自动加密市场信号捕获与报警。
一位Claude Code工程师上传免费视频,系统讲解CLAUDE.md、记忆快捷方式等核心提示工程技巧。
创作者用AI生成写实武侠动作短片,全程无特效却呈现电影级醉拳实战效果。
一名开发者分享如何组合OKX AI交易工具和Hyperliquid SDK,降低盯盘强度并提升链上交易效率。
SEO从业者分享如何零成本快速构建AI驱动的SEO仪表盘。
用GPT演示生成园艺花盆升降挂钩的淘宝详情页,商家直呼震惊。
作者实践验证Helio可构建有记忆、能协作的AI同事团队,解决多Agent割裂痛点。
browse工具让AI Agent真正具备网页交互与执行能力,解决‘有脑无手’痛点。
Hack with @invideoOfficial。这是我发现的将概念快速转化为成片的最快工作流之一。先完成参考图锁定,再编写逐场脚本,最后由Invideo Agent One执行。工作流详情见下方链接:https://t.co/N4Q2LOb0Oc
该工作流为:在生成任何画面之前,先构建世界结构。将12张参考图像锁定至Agent One,涵盖角色、地点、道具及品牌标识。每张图均打上标签,确保后续所有提示词均可调用对应元素。
随后采用分阶段简报:A阶段:生成这12张图——链接:https://t.co/BKhnJgHSdR
@savefilmer @invideoOfficial 很乐意提供帮助!
@PromptlyAI_YT @invideoOfficial 🫡
@shikoba_86 @invideoOfficial 谢谢你,Marco!
精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。