AI Pulse

在Mac上用本地数据微调多模态AI,连音频都能训

在Mac上用本地数据微调多模态AI,连音频都能训

有人刚录完一段方言客服录音,想让AI听懂‘薅羊毛’在东北话里的真实含义;有人拍下工厂流水线上的金属划痕照片,需要模型立刻判断是否属于缺陷;还有人把三年来的医疗问诊对话整理成CSV,想训练一个只认专业术语的助手——这些事,以前得租云服务器、等数据上传、调通CUDA环境,现在插着电源线,在咖啡馆的MacBook上就能启动。

它支持图像+文本(比如给发票截图配文字说明)、音频+文本(比如把方言录音对齐转录)、纯文本(比如用内部SOP微调回答逻辑)三种微调路径,全部原生运行在Apple Silicon上,靠的是PyTorch与Metal Performance Shaders(苹果自研图形计算框架)的深度绑定。这意味着:你不需要买显卡,也不需要把数据拷贝到远程服务器,更不用为GPU驱动版本焦头烂额。

它能直接从Google Cloud Storage或BigQuery流式读取训练数据,边下载边训练,避免SSD被几TB数据撑爆。这意味着:你手头只有256GB硬盘的MacBook Air,也能参与训练处理医院影像或呼叫中心全量录音的模型。

对比现有工具链,这是目前唯一同时满足‘支持音频微调+苹果芯片原生+云数据流式加载’三项条件的开源项目——MLX-LM和Unsloth虽也跑在Mac上,但不支持音频;axolotl只能走CUDA,必须配NVIDIA显卡。这背后不是简单移植,而是重写了LoRA适配层、重构了数据加载器,并绕过了Hugging Face Transformers对音频路径的架构限制。

别人还在把大模型当黑盒API调用时,已经有人开始在自己电脑上‘缝合’模型能力:用一张产品截图+一句‘生成电商详情页文案’,教会AI理解UI结构;用一段带口音的法律问询录音,校准通用ASR模型的识别边界。这不是在复刻ChatGPT,而是在制造只属于具体场景的‘小脑’。

下次看到同事用Mac跑AI任务,别急着问‘你用的什么云实例’——先看看他终端里是不是正跑着gemma-macos-tuner。

📎 阅读原文 · GitHub