AI模型投票平台靠卖深度分析报告年入1亿美元
你打开一个网页,输入“写一首关于秋天的诗”,屏幕左右并排出现两个AI模型的回答,你比较后点击你认为更好的那个。这个动作看似简单,却是衡量AI模型水平的重要方式。
这个网站叫Arena,它的AI模型排行榜对公众免费开放。你输入一段提示,Arena随机发给两个模型,你来选哪个更好。这套机制起源于2023年加州大学伯克利分校的一个研究项目,由Anastasios Angelopoulos、Wei-Lin Chiang和Ion Stoica联合创立。到2025年4月,它正式注册为公司。
千万次投票,催生一门生意
Arena的排行榜基于超过1000万次用户评估。评估范围很广,除了文本对话,还有编码、视觉、图像生成,甚至包括复杂的长工作流——这部分通过其最近推出的Agent Mode完成,测试模型自动处理多步骤任务的能力。
这样一个由社区驱动的大规模评估体系,很快吸引了AI公司的注意。2024年9月,Arena推出商业服务AI Evaluations,向模型实验室和企业提供深度性能分析报告。这些报告来自社区投票衍生的数据,不需要雇佣专业标注员。
8个月后,这项服务的年化运行率收入达到1亿美元。而就在2025年1月,Arena宣布完成1.5亿美元A轮融资时,其年化收入还只有3000万美元。短短几个月,收入增长超过两倍。目前Arena累计融资2.5亿美元,投资者包括Felicis、Andreessen Horowitz、Kleiner Perkins等。
靠社区投票,与人力标注公司抢生意
Angelopoulos说,很多人不知道Arena在赚钱,仍把它当作开源项目看待。但它的收入不是经常性订阅,而是按“消费”收费。具体按评估次数还是数据量收费,没有明确说明。
Arena没有直接竞争对手。2025年3月,另一家众包AI模型比较公司Yupp已关停。但Angelopoulos表示,Arena与人力标注初创公司Mercor、Surge和Scale AI竞争“同一笔预算”——即AI公司投入在模型评估和优化上的资金。
这一竞争格局的背景是,AI训练数据市场正在膨胀。Handshake的AI训练年化收入从1月的5.5亿美元增长到近10亿美元;Mercor的年化收入也从去年9月的5亿美元增长到今年早些时候的10亿美元以上。Arena用自己的方式瓜分这个市场:用用户投票替代人工标注,把社区变成数据来源。
你的投票,免费帮助AI公司改进
对于普通用户来说,Arena的存在意味着两件事。第一,你可以免费、直观地比较不同AI模型的输出,而不必自己安装或付费。第二,你每一次投票都在帮助AI公司改进模型——Arena将这些用户偏好数据加工成深度分析报告,卖给模型实验室和企业。
但Arena并未说明社区评估者是否获得报酬。其排行榜的公正性取决于大规模投票能否抵抗操纵。目前它仍是衡量AI能力的重要参考之一,但不是唯一指标。