最近的开源大模型发布情况

Question

最近的开源大模型发布情况

Accepted Answer

最近开源大模型领域出现密集发布潮，从百亿参数到百万上下文窗口，多个项目在同一时期公开，覆盖通用对话、编程、医疗和本地推理等方向，反映出社区和学界对开放模型的投入正在加速。

DeepSeek v4 开源大模型于 2026 年 4 月发布，包含 Pro 与 Flash 两个版本，支持百万字上下文并可本地部署，其 API 定价宣称比 GPT-4.5 等竞品低 10 到 50 倍[1]。相近时间 MiniMax 也开源了 M3 模型，参数超过 2000 亿，同样支持 100 万 token 上下文窗口[9]，两家几乎同时把长上下文门槛拉到了百万级。

威斯康星大学教授开源了包含 100 万行核心代码的大模型系统，并配有中英文配套书籍和硬核步骤教程，有用户按照教程在本地成功训练出了自己的大模型，不再依赖云服务或 API 密钥[10]。同期还有一个 1T 参数的思考模型被开源，专门面向编程、财务分析等复杂任务设计，模型可免费下载，但需要自行部署算力[13]。

医学领域迎来开源突破，AntAngelMed 拥有 100B 参数但实际只激活 6.1B，专为本地推理优化，全球首个达到这个规模且开源的医疗大模型，普通开发者在自己的设备上即可加载运行[16]。上海交大同步发布了 Dive into LLMs 开源教程库，涵盖 11 个方向的 PDF 课件和可运行 Jupyter Notebook，甚至还包含让 AI 替用户点外卖的 GUI 智能体教程[11][14]。这些开源项目配合社区工具链进一步降低了使用门槛，例如 whichllm 工具能自动检测本地硬件并从 HuggingFace 排名推荐最适配的模型并一键运行[12]，而 Models.dev 项目则将 AI 模型的规格、定价和能力整理成统一格式公开在 GitHub 上供任何人贡献和调用[6]。

📬 订阅 AI Pulse