26M参数小模型让AI助手直接调用工具，还能本地微调

📅 2026 年 5 月 13 日 📖 约 4 分钟 GitHub AI开源工程

我们将Gemini 3.1蒸馏为一个2600万参数的“简单注意力网络”，你甚至可以在Mac/PC上本地微调它。在生产环境中，Needle在Cactus上以每秒6000个token的预填充速度和1200个token的解码速度运行。权重完全开源在Cactus-Compute/needle，数据集生成代码也已公开。d=512，8H/4KV，BPE=8192。

┌──────────────┐
│ 工具调用 │
└──────┬───────┘
┌┴──────────┐
│ Softmax │
└─────┬─────┘
┌─────┴─────┐
│ 线性层 (T)│ ← 权重共享
└─────┬─────┘
┌─────┴─────┐
│ ZCRMSNorm │
└─────┬─────┘
┌────────┴────────┐
│ 解码器 x 8 │
│┌───────────────┐│
││ ZCRMSNorm ││
││ 掩码自注意力 ││
││ + RoPE ││
││ 门控残差连接 ││
│├───────────────┤│
┌──────────────┐ ││ ZCRMSNorm ││
│ 编码器 x 12 │──────────────────────▶交叉注意力 ││
│ │ ││ 门控残差连接 ││
│ ┌──────────┐ │ │└───────────────┘│
│ │ZCRMSNorm │ │ └────────┬────────┘
│ │自注意力 │ │ ┌─────┴─────┐
│ │GQA+RoPE │ │ │ 嵌入层 │ ← 共享
│ │门控残差 │ │ └─────┬─────┘
│ │ │ │ ┌───────┴───────-┐
│ │ (无FFN) │ │ │[EOS]<tool_call>│
│ └──────────┘ │ │ + 答案 │
│ │ └───────────────-┘
└──────┬───────┘
│
┌────┴──────┐
│ 嵌入层 │
└────┬──────┘
│
┌────┴──────┐
│ 文本 │
│ 查询 │
└───────────┘

在16个TPU v6e上预训练了2000亿个token（耗时27小时）。在20亿个token的单次函数调用数据集上进行后训练（耗时45分钟）。

Needle是简单注意力网络的一次实验性尝试，旨在重新定义面向消费设备（手机、手表、眼镜等）的微型AI。虽然它在单次函数调用任务上超越了FunctionGemma-270m、Qwen-0.6B、Graninte-350m和LFM2.5-350m，适用于个人AI场景，但这些模型具有更广的范围和容量，在对话场景中表现更优。此外，小模型可能较为敏感。请使用下一节中的UI测试你自己的工具，并一键进行相应微调。

## 快速开始
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground
打开一个Web UI，地址为http://127.0.0.1:7860，你可以在其中测试和微调自己的工具。权重会自动下载。

## 使用（Python）
from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()

result = generate(
model, params, tokenizer,
query="旧金山的天气怎么样？",
tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
stream=False,
)
print(result)
# [{"name":"get_weather","arguments":{"location":"San Francisco"}}]

## 微调
# 沙盒（通过Gemini生成数据，训练，评估，打包结果）
needle playground

# 命令行界面（如果本地没有权重，会自动下载）
needle finetune data.jsonl

## 命令行界面
needle playground 通过Web UI测试和微调
needle finetune <data.jsonl> 在自定义数据上微调
needle run --query "..." --tools 单次推理
needle train 完整训练运行
needle pretrain 在PleIAs/SYNTH上预训练
needle eval --checkpoint <path> 评估检查点
needle tokenize 对数据集进行分词
needle generate-data 通过Gemini合成训练数据
needle tpu <action> TPU管理（参见docs/tpu.md）

@misc{ndubuaku2026needle,
title={Needle},
author={Henry Ndubuaku, Jakub Mroz, Karen Mosoyan, Roman Shemet, Parkirat Sandhu, Satyajit Kumar, Noah Cylich, Justin H. Lee},
year={2026},
url={https://github.com/cactus-compute/needle}
}

阅读原文

📚 相关主题开源工程

📬 订阅 AI Pulse