AI Pulse

TensorZero开源平台自动优化提示和模型,支持A/B测试

TensorZero开源平台自动优化提示和模型,支持A/B测试

TensorZero是一个开源的LLMOps平台,把LLM网关、可观测性、评估、优化和实验功能统一在一起。它的网关能通过一个API调用Anthropic、OpenAI、DeepSeek、Mistral等二十多家主流LLM提供商。网关的p99延迟开销小于1毫秒,每秒能处理超过1万次查询。你可以在不同模型间切换,避免被单一供应商锁定。

可观测性功能会把每一次推理和用户反馈(评分、人工修改)存储在你自己的数据库中,UI或编程方式都能查看。数据是你的,不是TensorZero的。基于这些数据,平台支持多种优化:监督微调、RLHF、自动提示工程(如GEPA算法)、动态上下文学习等。评估功能可以用启发式规则或LLM作为裁判来评价单次推理结果和整个工作流。实验功能内置了A/B测试、路由、回退和重试策略,方便安全测试新版本后再上线。

TensorZero还推出了一个名为Autopilot的付费产品,它能自动分析LLM可观测性数据、设定评估标准、优化提示和模型,并运行A/B测试——就像一个真正的AI工程师。注意:核心平台100%开源且自托管,Autopilot是补充的付费产品。

实际效果如何?TensorZero给出的示例中,经过优化的GPT-4o Mini在数据提取任务上超越了更大的GPT-4o,成本和延迟都低得多。这个工具已经被从前沿AI初创公司到财富10强企业使用,目前驱动全球约1%的LLM API支出。团队背景包括前Rust编译器维护者、来自斯坦福/CMU/牛津/哥伦比亚的机器学习研究员,以及一家十角兽初创公司的首席产品官。融资方面,TensorZero获得了730万美元种子轮,投资方也是ClickHouse、CockroachDB、OpenAI和Anthropic的投资者。

如果你想开始用,官方声称5分钟内就能从普通的OpenAI封装器升级到具备可观测性和微调功能的生产级LLM应用。它兼容OpenAI SDK、OpenTelemetry以及所有主要LLM提供商。

目前没有明确说明Autopilot的具体定价,也不清楚是否支持中文界面和文档。对于非技术用户,安装配置的难度没有提及,处理敏感数据的合规要求也未公开。但平台是自托管的,数据由用户自己控制,隐私风险可以降低。

阅读原文
📚 相关主题 开源工程

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部