TensorZero开源平台自动优化提示和模型，支持A/B测试

📅 2026 年 6 月 14 日 📖 约 7 分钟 GitHub 开源AI工程

TensorZero是一个开源的LLMOps平台，把LLM网关、可观测性、评估、优化和实验功能统一在一起。它的网关能通过一个API调用Anthropic、OpenAI、DeepSeek、Mistral等二十多家主流LLM提供商。网关的p99延迟开销小于1毫秒，每秒能处理超过1万次查询。你可以在不同模型间切换，避免被单一供应商锁定。

可观测性功能会把每一次推理和用户反馈（评分、人工修改）存储在你自己的数据库中，UI或编程方式都能查看。数据是你的，不是TensorZero的。基于这些数据，平台支持多种优化：监督微调、RLHF、自动提示工程（如GEPA算法）、动态上下文学习等。评估功能可以用启发式规则或LLM作为裁判来评价单次推理结果和整个工作流。实验功能内置了A/B测试、路由、回退和重试策略，方便安全测试新版本后再上线。

TensorZero还推出了一个名为Autopilot的付费产品，它能自动分析LLM可观测性数据、设定评估标准、优化提示和模型，并运行A/B测试——就像一个真正的AI工程师。注意：核心平台100%开源且自托管，Autopilot是补充的付费产品。

实际效果如何？TensorZero给出的示例中，经过优化的GPT-4o Mini在数据提取任务上超越了更大的GPT-4o，成本和延迟都低得多。这个工具已经被从前沿AI初创公司到财富10强企业使用，目前驱动全球约1%的LLM API支出。团队背景包括前Rust编译器维护者、来自斯坦福/CMU/牛津/哥伦比亚的机器学习研究员，以及一家十角兽初创公司的首席产品官。融资方面，TensorZero获得了730万美元种子轮，投资方也是ClickHouse、CockroachDB、OpenAI和Anthropic的投资者。

如果你想开始用，官方声称5分钟内就能从普通的OpenAI封装器升级到具备可观测性和微调功能的生产级LLM应用。它兼容OpenAI SDK、OpenTelemetry以及所有主要LLM提供商。

目前没有明确说明Autopilot的具体定价，也不清楚是否支持中文界面和文档。对于非技术用户，安装配置的难度没有提及，处理敏感数据的合规要求也未公开。但平台是自托管的，数据由用户自己控制，隐私风险可以降低。

阅读原文

📚 相关主题开源工程

📬 订阅 AI Pulse