CS336: Language Modeling from Scratch
社区讨论:多人质疑课程对高端GPU(如B200,$4.99/小时)的依赖,@skerit和@AJRF明确表示4090或5080 16GB已足够完成早期任务;@fg137则证实即使有深度学习基础,仅靠业余时间用消费级卡完成前两作业也耗时数月;@dominotw指出自己更关注理论理解而非工程实现,希望有LessWrong风格的底层阐释;@chainsaw10追问ML先修课的实操资源,反映对前置知识门槛的普遍关切。
Nvidia今天发布了一款叫RTX Spark的PC CPU,官方称之为“超级芯片”,算力达到1 petaflop。搭载这颗芯片的Windows PC今年秋季就会上市,首批厂商包括华硕、戴尔、惠普、联想、微软Surface和微星,宏碁和技嘉也会随后跟上。
这些PC不光是性能强。它们配备了一个与微软联合开发的安全沙箱,可以安全运行AI代理。硬件上,CPU、GPU、RAM和底层CUDA软件都足够运行本地版的大语言模型——也就是说,你不用把数据传到云端。
RTX技术本身也会带来更快的AI性能、更好的图像质量,并支持超过1000款游戏和应用的AI功能。超过100家Windows软件厂商已经签约支持新芯片,包括Adobe、Blender、ComfyUI、Riot Games和Xbox。
来自 𝕏 的实时信号,经 AI 聚类分析
CS336: Language Modeling from Scratch
社区讨论:多人质疑课程对高端GPU(如B200,$4.99/小时)的依赖,@skerit和@AJRF明确表示4090或5080 16GB已足够完成早期任务;@fg137则证实即使有深度学习基础,仅靠业余时间用消费级卡完成前两作业也耗时数月;@dominotw指出自己更关注理论理解而非工程实现,希望有LessWrong风格的底层阐释;@chainsaw10追问ML先修课的实操资源,反映对前置知识门槛的普遍关切。
🚨 NVIDIA 刚刚发布了其最强大的面向自动驾驶出租车的开源 AI 模型。
其新款 Alpamayo 2 Super 模型规模是此前版本的 3 倍,参数量达 320 亿。
该 AI 现在能够:
- 看到车辆周围 360° 全景,而不仅限于前方视野;
- 更好地理解汽车、行人及物体在三维空间中的位置;
- 自主决定何时停车、让行或变道;
- 更安全地应对罕见且不可预测的道路状况;
- 解释其驾驶决策背后的推理过程;
- 自动标注驾驶数据,将原本耗时数月的工作缩短至数天。
这现已成为 NVIDIA($NVDA)最强大的开源驾驶 AI 模型。
如果你平时不用 codex 但是架不住 image2 牛逼又不得不用,怎么办?
我开源了一个 SKILL —— imgen,安装后可以直接在 Claude Code 以及其他 Agent 里面直接生成图片。
✨ Features
🖼️ 文生图 & 图生图 — 一条命令,从文字生成图片或修改已有图片
🔑 零配置 — 复用本地 Codex 登录状态,无需单独申请 API Key
📐 最高 4K 分辨率 — 支持到 3840×2160(4K UHD)
🪟 透明背景 — 一键输出透明 PNG,适合做图标、贴纸
🤖 原生 AI Skill — 在 Claude Code / Codex / Gemini CLI 里直接说"帮我画一张……"即可触发
⚡ 直出本地文件 — 图片直接写盘,无中间云端上传
这款开源 OCR 模型好得离谱。
• 参数量不到 10 亿
• 支持 91 种语言
• 在 RTX 5090 上每秒可处理 5 页
• 可在 CPU、GPU 和 Apple Silicon 上运行
• 在 olmOCR 基准测试中得分 83.3%(在参数量低于 30 亿的模型中排名第一)
Surya OCR 正将文档智能推向一个全新高度。
Github 链接:
刚刚发现了一套出人意料地好用的 AI 工作流配置 👇
Agnes AI 是一个 AI 模型平台,提供对其多模态模型的 API 接入,包括智能体(agent)、图像和视频系统。
我尝试将 Agnes-2.0-Flash 应用于类似 Claude Code / Codex 的工作流中,它成功完成了:
• 编码与代码重构
• 问题调试
• 小型自动化脚本编写
此外还探索了:
• Agnes-Image-2.0-Flash,用于快速生成视觉内容
• Agnes-Video-V2.0,用于生成概念短片
感觉目前仅靠一套模型栈(通过 API 接入)就已能覆盖开发者与内容创作者日常工作的很大一部分。
如果你正在构建 AI 工作流,值得一试 👇
@agnesai_sapiens
#AgnesAI #Agnes2Flash #FreeAIModel #AIAgent #MultimodalAI #AIWorkflow #CodingWithAI #DeveloperTools #NoMorePaywalls
我有一个可能不太受欢迎的观点:峰值模型智能对大多数实际应用场景而言将无关紧要,而且在相对较短的时间内,足够强的智能将通过开源渠道广泛扩散。
Composer 2.5 现已在 Grok Build 中上线。
Composer 2.5 是一款速度快、智能化程度极高的模型,擅长处理长时间运行的任务,并能精准遵循复杂指令。
该功能通过7个结构化提示词,帮助用户完成从概念生成、脚本撰写、镜头设计到音频规划的完整视频筹备,无需启动任何视频编辑软件。
阅读全文 →这是Avthar完整的43分钟演示视频,展示其多智能体Claude Code工作流,该工作流帮助他实现10倍开发提速。工作流包含git worktrees、并行智能体(parallel agents)和Agent View功能。
视频时间戳标注了关键节点:0:00为‘最大生产力突破’;2:09为‘第一步:准备’;5:49为‘终端设置’;6:49为‘git worktrees’;12:39为‘第二步’,并附链接
该视频同步发布于YouTube,链接为
Avthar在𝕏(原Twitter)账号@avthar提供关于Claude Code、Codex等AI编程工具的深度内容,并分享高效使用方法。用户可关注其𝕏账号或订阅其YouTube频道以获取更多信息。
AI智能体部署有时可能非常困难。HivemindOS中新增的usepod智能体,其设置流程现已接近为钱包注资的操作:创建代币 → 注入资金 → 查看可用模型 → 选择模型 → 运行智能体。
新usepod智能体可访问用户的整个Hivemind,包括所有已注册的技能和记忆。
附注:尚未加入的用户可加入$ hive社区,跟踪其演进过程。
@anomit 提问获回应:1. 推理算力交易功能即将上线。目标是让用户能出租闲置计算设备——例如,纽约一台性能强劲但闲置一半的机器,其所有者愿意通过出租获取收益。
在 X 上看了不少文章封面,发现普遍都很丑,包括自己的。 我让@xiaoxiaodong01 发了一个他满意的提示词。 在此基础让 ChatGPT优化,把硬性限定词都去掉,给 AI 充分的发挥空间。 以后任意一篇文章丢给ChatGPT或Codex都可以生成类似的 5:2 大字封面。 提示词见评论区
@xiaoxiaodong01 请生成一张 5:2 横向高级概念海报。 这不是普通插画,也不是简单字效。请理解用户输入内容背后的含义、情绪、隐喻和传播张力,把它转译成一个极简、有力、清晰、有记忆点的视觉概念。 用户输入内容必须成为画面核心主文字:大、清晰、醒目、有合理内边距,不能乱码、错字、裁切或难以辨认。
ChatGPT image 2 x 儿童节主题内衣提示词 大人也要过儿童节😏 从之前的内衣提示词中获得了灵感,现在的提示词可以指定风格或者各种角色IP来进行定制生图,有想深入研究的朋友可以再优化一下服装的款式变化以及整体的造型搭配。 提示词放在了评论区,欢迎返图👇
提示词: 生成一张单张 9:16 竖版 RAW 风格手机摄影照片。主题为架空高级内衣时尚品牌的原创角色灵感 cos 内衣试穿会。视觉灵感来自各种动漫或游戏角色。 【指定模特设定:用户填写,例如 20 多岁成年日本女性 / 黑发短发冷淡脸 / 棕色长卷发甜美姐姐感 / 亚麻棕波波头自然可爱感】
@GeekCatX 大人之间的儿童节可以这样过😏
@0xkyne 😏陆续有来
@planxyou 😅哪里看到的未成年,提示词都写了 20 岁女性
@94vanAI 😅应该不是吧,这个就是卡通版内衣的意思
今天,@MeckaAI 宣布获得 6000 万美元融资,旨在成为物理 AI 的数据与部署层。本轮融资将助力我们扩展数据基础设施、投入新垂直领域,并将机器人部署到真实世界中。
当我们创立 Mecka 时,我们相信机器人技术正迎来一个拐点:模型性能、硬件能力与商业需求三者正在交汇。来自真实世界的规模化经验,将成为关键突破口。详见 @FortuneMagazine。
Mecka 的使命是将物理 AI 带入真实世界。我们构建数据、评估与部署基础设施,以加速实现机器人在商业环境中可靠执行真实任务的未来。
通用化、已部署的机器人技术,将成为我们这一代人所见证的最重要技术之一——它将提升生活质量、生产效率与可能性边界。
我们对团队设定了极高的标准:亲自动手做工程,每日深入处理 PB 级数据。欢迎加入我们,共同加速这一现实的到来。
@mli0603 @MeckaAI 谢谢 Max!
有人给 Claude Code 做了一个中医 Agent Skill,把倪海厦 12 门课全部结构化了 讲义、方剂、穴位、2986 张课程截图,全部可搜索 你用自然语言描述症状,AI 帮你检索对应的经方和穴位方案,还能生成复习计划和对比表 这个项目有意思的地方在于:AI Agent 正在渗透到最传统的知识领域,中医只是开始
@qtwaiter 可以可以👍
🚨 NVIDIA 刚刚发布了其最强大的面向自动驾驶出租车的开源 AI 模型。
其新款 Alpamayo 2 Super 模型规模是此前版本的 3 倍,参数量达 320 亿。
该 AI 现在能够:
- 看到车辆周围 360° 全景,而不仅限于前方视野;
- 更好地理解汽车、行人及物体在三维空间中的位置;
- 自主决定何时停车、让行或变道;
- 更安全地应对罕见且不可预测的道路状况;
- 解释其驾驶决策背后的推理过程;
- 自动标注驾驶数据,将原本耗时数月的工作缩短至数天。
这现已成为 NVIDIA($NVDA)最强大的开源驾驶 AI 模型。
如果你平时不用 codex 但是架不住 image2 牛逼又不得不用,怎么办?
我开源了一个 SKILL —— imgen,安装后可以直接在 Claude Code 以及其他 Agent 里面直接生成图片。
✨ Features
🖼️ 文生图 & 图生图 — 一条命令,从文字生成图片或修改已有图片
🔑 零配置 — 复用本地 Codex 登录状态,无需单独申请 API Key
📐 最高 4K 分辨率 — 支持到 3840×2160(4K UHD)
🪟 透明背景 — 一键输出透明 PNG,适合做图标、贴纸
🤖 原生 AI Skill — 在 Claude Code / Codex / Gemini CLI 里直接说"帮我画一张……"即可触发
⚡ 直出本地文件 — 图片直接写盘,无中间云端上传
这款开源 OCR 模型好得离谱。
• 参数量不到 10 亿
• 支持 91 种语言
• 在 RTX 5090 上每秒可处理 5 页
• 可在 CPU、GPU 和 Apple Silicon 上运行
• 在 olmOCR 基准测试中得分 83.3%(在参数量低于 30 亿的模型中排名第一)
Surya OCR 正将文档智能推向一个全新高度。
Github 链接:
刚刚发现了一套出人意料地好用的 AI 工作流配置 👇
Agnes AI 是一个 AI 模型平台,提供对其多模态模型的 API 接入,包括智能体(agent)、图像和视频系统。
我尝试将 Agnes-2.0-Flash 应用于类似 Claude Code / Codex 的工作流中,它成功完成了:
• 编码与代码重构
• 问题调试
• 小型自动化脚本编写
此外还探索了:
• Agnes-Image-2.0-Flash,用于快速生成视觉内容
• Agnes-Video-V2.0,用于生成概念短片
感觉目前仅靠一套模型栈(通过 API 接入)就已能覆盖开发者与内容创作者日常工作的很大一部分。
如果你正在构建 AI 工作流,值得一试 👇
@agnesai_sapiens
#AgnesAI #Agnes2Flash #FreeAIModel #AIAgent #MultimodalAI #AIWorkflow #CodingWithAI #DeveloperTools #NoMorePaywalls
我有一个可能不太受欢迎的观点:峰值模型智能对大多数实际应用场景而言将无关紧要,而且在相对较短的时间内,足够强的智能将通过开源渠道广泛扩散。
CS336: Language Modeling from Scratch
社区讨论:多人质疑课程对高端GPU(如B200,$4.99/小时)的依赖,@skerit和@AJRF明确表示4090或5080 16GB已足够完成早期任务;@fg137则证实即使有深度学习基础,仅靠业余时间用消费级卡完成前两作业也耗时数月;@dominotw指出自己更关注理论理解而非工程实现,希望有LessWrong风格的底层阐释;@chainsaw10追问ML先修课的实操资源,反映对前置知识门槛的普遍关切。
Composer 2.5 现已在 Grok Build 中上线。
Composer 2.5 是一款速度快、智能化程度极高的模型,擅长处理长时间运行的任务,并能精准遵循复杂指令。
有人给 Claude Code 做了一个中医 Agent Skill,把倪海厦 12 门课全部结构化了 讲义、方剂、穴位、2986 张课程截图,全部可搜索 你用自然语言描述症状,AI 帮你检索对应的经方和穴位方案,还能生成复习计划和对比表 这个项目有意思的地方在于:AI Agent 正在渗透到最传统的知识领域,中医只是开始
@qtwaiter 可以可以👍
今天,@MeckaAI 宣布获得 6000 万美元融资,旨在成为物理 AI 的数据与部署层。本轮融资将助力我们扩展数据基础设施、投入新垂直领域,并将机器人部署到真实世界中。
当我们创立 Mecka 时,我们相信机器人技术正迎来一个拐点:模型性能、硬件能力与商业需求三者正在交汇。来自真实世界的规模化经验,将成为关键突破口。详见 @FortuneMagazine。
Mecka 的使命是将物理 AI 带入真实世界。我们构建数据、评估与部署基础设施,以加速实现机器人在商业环境中可靠执行真实任务的未来。
通用化、已部署的机器人技术,将成为我们这一代人所见证的最重要技术之一——它将提升生活质量、生产效率与可能性边界。
我们对团队设定了极高的标准:亲自动手做工程,每日深入处理 PB 级数据。欢迎加入我们,共同加速这一现实的到来。
@mli0603 @MeckaAI 谢谢 Max!
ChatGPT image 2 x 儿童节主题内衣提示词 大人也要过儿童节😏 从之前的内衣提示词中获得了灵感,现在的提示词可以指定风格或者各种角色IP来进行定制生图,有想深入研究的朋友可以再优化一下服装的款式变化以及整体的造型搭配。 提示词放在了评论区,欢迎返图👇
提示词: 生成一张单张 9:16 竖版 RAW 风格手机摄影照片。主题为架空高级内衣时尚品牌的原创角色灵感 cos 内衣试穿会。视觉灵感来自各种动漫或游戏角色。 【指定模特设定:用户填写,例如 20 多岁成年日本女性 / 黑发短发冷淡脸 / 棕色长卷发甜美姐姐感 / 亚麻棕波波头自然可爱感】
@GeekCatX 大人之间的儿童节可以这样过😏
@0xkyne 😏陆续有来
@planxyou 😅哪里看到的未成年,提示词都写了 20 岁女性
@94vanAI 😅应该不是吧,这个就是卡通版内衣的意思
在 X 上看了不少文章封面,发现普遍都很丑,包括自己的。 我让@xiaoxiaodong01 发了一个他满意的提示词。 在此基础让 ChatGPT优化,把硬性限定词都去掉,给 AI 充分的发挥空间。 以后任意一篇文章丢给ChatGPT或Codex都可以生成类似的 5:2 大字封面。 提示词见评论区
@xiaoxiaodong01 请生成一张 5:2 横向高级概念海报。 这不是普通插画,也不是简单字效。请理解用户输入内容背后的含义、情绪、隐喻和传播张力,把它转译成一个极简、有力、清晰、有记忆点的视觉概念。 用户输入内容必须成为画面核心主文字:大、清晰、醒目、有合理内边距,不能乱码、错字、裁切或难以辨认。
AI智能体部署有时可能非常困难。HivemindOS中新增的usepod智能体,其设置流程现已接近为钱包注资的操作:创建代币 → 注入资金 → 查看可用模型 → 选择模型 → 运行智能体。
新usepod智能体可访问用户的整个Hivemind,包括所有已注册的技能和记忆。
附注:尚未加入的用户可加入$ hive社区,跟踪其演进过程。
@anomit 提问获回应:1. 推理算力交易功能即将上线。目标是让用户能出租闲置计算设备——例如,纽约一台性能强劲但闲置一半的机器,其所有者愿意通过出租获取收益。
这是Avthar完整的43分钟演示视频,展示其多智能体Claude Code工作流,该工作流帮助他实现10倍开发提速。工作流包含git worktrees、并行智能体(parallel agents)和Agent View功能。
视频时间戳标注了关键节点:0:00为‘最大生产力突破’;2:09为‘第一步:准备’;5:49为‘终端设置’;6:49为‘git worktrees’;12:39为‘第二步’,并附链接
该视频同步发布于YouTube,链接为
Avthar在𝕏(原Twitter)账号@avthar提供关于Claude Code、Codex等AI编程工具的深度内容,并分享高效使用方法。用户可关注其𝕏账号或订阅其YouTube频道以获取更多信息。
该功能通过7个结构化提示词,帮助用户完成从概念生成、脚本撰写、镜头设计到音频规划的完整视频筹备,无需启动任何视频编辑软件。
阅读全文 →精选文章的中文编辑重写 · 按更新时间排列
每天三次更新,不错过重要信号
添加到 Feedly、Inoreader 等阅读器,自动接收更新
https://ai-pulse-lab.com/feed.xml
把以下内容发给你的 AI Agent(Claude/ChatGPT/Manus 等),它会帮你设定每日推送:
请帮我设置一个定时任务,每天北京时间 9:30、15:00 和 19:30 各执行一次: 请求 https://ai-pulse-lab.com/api/brief.json,读取返回 JSON 中的 textPlain 字段,将内容发送给我。 补充:每日北京时间 09:00、14:30 和 19:30 更新,建议更新后 30 分钟查询。可先请求 /api/manifest.json 检查 nextUpdateAt 字段。无需认证,直接 GET 请求即可。