最近开源大模型领域出现密集发布潮,从百亿参数到百万上下文窗口,多个项目在同一时期公开,覆盖通用对话、编程、医疗和本地推理等方向,反映出社区和学界对开放模型的投入正在加速。

DeepSeek v4 开源大模型于 2026 年 4 月发布,包含 Pro 与 Flash 两个版本,支持百万字上下文并可本地部署,其 API 定价宣称比 GPT-4.5 等竞品低 10 到 50 倍[1]。相近时间 MiniMax 也开源了 M3 模型,参数超过 2000 亿,同样支持 100 万 token 上下文窗口[9],两家几乎同时把长上下文门槛拉到了百万级。

威斯康星大学教授开源了包含 100 万行核心代码的大模型系统,并配有中英文配套书籍和硬核步骤教程,有用户按照教程在本地成功训练出了自己的大模型,不再依赖云服务或 API 密钥[10]。同期还有一个 1T 参数的思考模型被开源,专门面向编程、财务分析等复杂任务设计,模型可免费下载,但需要自行部署算力[13]

医学领域迎来开源突破,AntAngelMed 拥有 100B 参数但实际只激活 6.1B,专为本地推理优化,全球首个达到这个规模且开源的医疗大模型,普通开发者在自己的设备上即可加载运行[16]。上海交大同步发布了 Dive into LLMs 开源教程库,涵盖 11 个方向的 PDF 课件和可运行 Jupyter Notebook,甚至还包含让 AI 替用户点外卖的 GUI 智能体教程[11][14]。这些开源项目配合社区工具链进一步降低了使用门槛,例如 whichllm 工具能自动检测本地硬件并从 HuggingFace 排名推荐最适配的模型并一键运行[12],而 Models.dev 项目则将 AI 模型的规格、定价和能力整理成统一格式公开在 GitHub 上供任何人贡献和调用[6]