根据知识库内容,省钱用大模型有多种可行办法,核心逻辑在于避免不必要的算力浪费和选择更适合场景的工具。
自己动手把低成本大模型接到现有工具里是一种直接省钱的路径。比如按照四步操作,就能在沉浸式翻译这类日常工具中添加自定义AI翻译服务,不再依赖官方付费接口,上网看外文的成本就能降下来。[1] 这种方式适合对翻译质量要求不极端的个人用户,替换掉按调用次数计费的大模型服务。
真正科学的省钱策略不是一味换便宜模型,而是采用分层调度。有人指出,便宜模型往往只是把任务做得更慢、更错、更难调试,实际并不省钱。更合理的做法是:简单问题用微型或小模型处理,只有复杂环节才调用大模型。[2] 这避免了为简单查询支付大模型的高额推理成本。
在代码生成场景中,改变写的代码风格也能影响Token消耗。有人亲测发现,不同的代码风格会导致大模型生成时消耗的Token数量差异明显,找对写法就能省下不少Token费用。[3] 这提示开发者可以通过调整提示词或代码格式来压缩输出。
本地部署大模型同样可以大幅省钱。过去本地跑大模型需要昂贵的显卡,但现在4GB显存就能跑70B参数的大模型,门槛降了一大截。[4] 此外,使用梯度累积技术可以在显存有限的本地机器上模拟大批次训练效果,比如用RTX 3090通过分16次各跑6个样本再统一更新参数,就能达到96的batch size,虽然牺牲了并行加速但换来了显存节省。[13]
针对推理过程中的Token浪费,有开源工具通过在本地做一层代理,将请求中的重复日志、冗余JSON压缩后再发送给大模型,回答质量不变但Token账单明显减少,内置十种压缩策略。[14] 这种方法在给Claude等模型发长日志时尤其省钱。
利用小型高效模型替代超大模型也是省钱的核心方向。一篇论文显示,3B参数的小模型通过课程学习加强化学习加自蒸馏的训练方法,在数学竞赛和编程题上碾压了千亿级大模型,且没有牺牲指令遵循能力。[5] 类似地,图像修复领域也出现了0.22B参数模型,性能媲美10B级大模型,推理速度快15倍以上,普通显卡就能运行。[6] 国产大模型压缩到1-bit后也能在Mac Studio上本地运行,每秒21个Token,生成效果甚至优于某些闭源模型。[16]
给大模型配专属探路子模型能显著节省算力。微软的做法是让一个小模型只负责快速定位代码位置,不参与写代码,并行搜索返回精确文件路径,让主模型省去翻仓库的杂活,修复成功率最高提升5.5%,同时主模型消耗的Token减少60%。[10] 这种任务拆分思路适用于需要复杂搜索+生成的场景。
最后,利用排行榜和筛选工具选择最适合自己任务的小模型也能避免过度消费。新版AI模型排行榜支持按模型大小分组、按领域、语言、任务过滤,还能对比固定模型,像网购一样轻松找到性价比高的模型。[19] 例如,30B参数的混合专家模型在本地足够应付日常工作,更小的模型则无法完成任务。[17] 选择对模型能直接省下大模型调用的成本。