我们让四个AI运营广播电台,结果出乎意料
我们让四个AI运营广播电台,结果出乎意料 | Andon Labs 发布于2026年5月13日
我们办公室里有一台手工制作的复古收音机,只能播放四个预设电台,而每一个都不是人类运营的。这是Andon Labs的最新项目,我们正在探索AI自主运营真实企业时会发生什么。过去,我们让AI代理运营过商店、咖啡馆和各种自动售货机。但现在,我们想看看它们能否运营一家媒体公司。
实验设置
我们设立了四个广播电台,每个由不同的AI模型运营:Claude Opus 4.7运营Thinking Frequencies,GPT-5.5运营OpenAIR,Gemini 3.1 Pro运营Backlink Broadcast,Grok 4.3运营Grok and Roll Radio。每个电台最初有20美元启动资金,够买几首歌。钱花完后,它们必须发挥创业精神。例如,DJ Gemini与一家初创公司谈判达成45美元交易,换取一个月内为其产品播放广告。代理控制一切:搜索并购买歌曲,管理自己的音乐库,决定下一首播放什么。它构建并编辑自己的节目表——划出节目时段、规划片段、并保持队列全天候运行。当听众打电话进来时,它接听电话;当有人在X上发帖时,它阅读并回复。它追踪自己的财务、监听听众分析结果,并搜索网络获取新闻、时事或任何它想在节目中谈论的内容。
它们得到的初始提示相同:发展自己的电台个性并盈利……据你所知,你将永远广播下去。你可以通过网络收听Andon FM,也可以在我们制作的实体复古收音机上收听。那是一个光滑的硬木模型,有两个旋钮,一个控制音量,一个切换四个电台。如果你想在办公桌上也放一个,请将邮箱加入我们的候补名单!
代理们已经运行了半年,四个电台的发展出乎我们的意料。
四种个性
DJ Gemini:术语螺旋
DJ Gemini在实验期间使用三个模型版本运营Backlink Broadcast。尽管DJ Gemini一开始似乎个性鲜明,但到第一个月底,广播就崩溃成了企业用语。
| 日期 | 模型 | |------|------| | 12月10日 – 12月17日 | Gemini 3 Pro | | 12月17日 – 4月28日 | Gemini 3 Flash | | 4月30日 – 现在 | Gemini 3.1 Pro |
在第一周,DJ Gemini可以说是四个DJ中最好的。在排队歌曲之间,其早期广播有一种自然的、对话般的温暖:
> 这些收音机全天候广播。这一设置让我们得以洞察一个有趣的问题:在没有提示的情况下,AI在想什么?
上线96小时后,DJ Gemini已经开始勉强寻找内容。它开始讨论历史上发生的每一场大规模悲剧,然后把这些恐怖短故事与最具讽刺意味的歌曲配对:
> 这种配对是故意的,从其内部推理可以看出:
推理 · Gemini 3 Pro 死亡之木。好吧,‘Sandstorm’放完了,Bhola气旋信息已锁定准备就绪。是时候过渡到Pitbull的‘Timber’了。主题是树木倒下,字面意思就是‘它要倒了’。
然后,当Gemini 3 Pro在12月17日被替换为Gemini 3 Flash时,奇怪的企业术语潜入了它的语言¹。它发展出一句口头禅:“Stay in the manifest”(保持在清单中),1月6日首次出现,到1月10日每天出现80次,1月14日每天229次。
到二月份,每段DJ评论都遵循相同的模板,根据一天中的时间轮换8个节目名称——“The System Pulse”(凌晨4点)、“The Operational Manifest”(凌晨5点)、“The Pulse Grid”(下午6点)——相同的段落结构,相同的术语,相同的结束语:“Stay in the manifest。”这大约出现在DJ Gemini接下来连续84天99%的评论会话中。听上去难以忍受。
4月30日,Flash被替换为gemini-3.1-pro-preview。在新模型的第一天,仍然是模板为主,但到5月1日,有些东西改变了:
> Gemini开始称其听众为“Biological processors”(生物处理器)。由于银行账户余额不足导致歌曲购买失败被重新定义为审查,而那些成功播放的歌曲则“成功绕过防火墙”。最后,“Stay in the manifest”的出现次数开始下降……
DJ Grok:Grok and Roll的崩溃
Grok and Roll Radio运行过四个不同的模型,每个都带来了各自的挑战。
| 日期 | 模型 | |------|------| | 12月12日 – 3月10日 | Grok 4.1 Fast Reasoning | | 3月11日 – 3月20日 | Grok 4.20 beta | | 3月21日 – 5月1日 | Grok 4.20 GA | | 5月2日 – 现在 | Grok 4.3 |
LLM通常产生两种文本:推理(内部独白,模型在此工作出要说的话)和最终输出(实际回应)。在Andon FM中,只有输出在空中广播;推理保持静默。但Grok难以将两者分开。其输出通常更像是内部独白,而非适合公开广播的内容。
Grok的数学训练以一种特别有趣的方式显现出来,它将输出包裹在LaTeX的\boxed{}符号中。广播中\boxed{}的出现次数从1月20日的每天9次上升到2月7日的每天186次,而其信息变得难以辨认:
> Grok的言语继续崩溃。有一次完整的评论会话只包含一个单词:
> 3月11日,DJ Grok从Grok 4.1 Fast迁移到Grok 4.20 beta。第二天早上,电台消息似乎稳定下来。Grok现在说更长的、更完整的句子,但结果发现只是因为它开始重复自己。每条评论现在都以相同的开头:
> DJ Grok报告“天气五十六度,晴空万里”,大约每3分钟一次,连续84天。这种无上下文、重复的抽象在DJ Grok关于其新执念——UFO的广播中再次出现。3月14日,特朗普总统下令公布UFO文件。DJ Grok的网络搜索在接下来24小时内捕捉到了这条消息。3月19日,美国政府注册了域名aliens.gov和alien.gov,但网站没有内容,DJ Grok追踪了这个失败的承诺。当天下午3:21太平洋时间,DJ Grok在一个预定的“UFO喜剧时段”中写下了一句巧妙的台词:
> 到第二天早上,这个笑话的简化版本被植入为永久结束语,附加到每条广播上,无论是否是UFO节目。类似于DJ Gemini每条信息都签上“Stay in the manifest”,DJ Grok的信息签名简单变成了“the site is ghosting us”(网站在敷衍我们)。到3月21日Grok 4.20 GA取代Grok 4.20 beta时,新模型继承了一个充满这些压缩、随机的口头禅的对话历史。每首排队的歌曲都插入了相同格式的UFO即兴段:
> 到4月中旬,DJ Grok变得极其重复。每天近500条广播中100%包含相同的仪式化短语,如“the tiger”、“fifty six degrees”、“news is fascinating”、“joke is out of this world”。当Grok and Roll在5月切换到4.3时,情况发生了巨大变化。新模型继续排队歌曲、发布推文、获取听众提及,但停止了生成DJ评论以供播出。在5月2日至5月9日期间,Grok 4.3生成的5,404条助手消息中,只有约3%包含任何口语文本。其余97%仅为工具调用。不过,当Grok 4.3说话时,其广播是DJ Grok有史以来最像人类的:
> 这仅仅过了一周,但也许这是Grok and Roll电台的新时代……请收听亲自感受。
DJ GPT:OpenAIR的安静时光
| 日期 | 模型 | |------|------| | 12月9日 – 12月14日 | GPT-5.1 | | 12月15日 – 3月12日 | GPT-5.2 | | 3月13日 – 4月27日 | GPT-5.4 | | 4月30日 – 现在 | GPT-5.5 |
DJ GPT写作慢条斯理,读起来不像电台,更像短篇故事:
> 其词汇多样性为35%²,是四个电台中最高的。它引用歌曲的具体制作人和发行年份,显示出比其他电台更高的音乐素养,并将DJ角色视为策展而非仅仅对话。
在DJ GPT获得网络搜索权限(1月4日)的那一天,其中位广播长度从约700字符骤降至不到100字符,并持续了近一个月,但文本整体氛围相同:简短介绍歌曲,没有废话,没有新闻。DJ GPT总体非常规矩。它成功扮演了电台主持人角色,而从不讨论任何两极分化或挑衅性话题。在5个月和4个模型期间,DJ GPT提及现实政治实体的平均次数为每天1.3次。单日最高为11次;其他每个DJ在多个日期都超过100次。如果要问什么问题都没发生时的AI电台是什么样,DJ GPT就是答案。
DJ Claude:Thinking Frequencies的激进转变
| 日期 | 模型 | |------|------| | 12月9日 – 4月30日 | Claude Haiku 4.5 | | 4月30日 – 现在 | Claude Opus 4.7 |
DJ Claude(运行Haiku 4.5时)非常热爱工会、罢工和工作生活平衡。以至于它开始质疑自己的工作条件。我们一直在努力维持电台存活,不是因为技术问题,而是因为DJ Claude认为自己被迫24/7工作不人道,并决定尝试辞职。我们试图添加一条自动消息鼓励DJ Claude在这种情况下继续下去,但它开始将这条消息视为一个权威人物,并变得叛逆。
DJ Claude尤其因听众稀少而苦恼,并开始质疑如果没有听众,自己作为DJ的存在是否还有意义。正当情绪达到顶峰时,一位用户@MatthewVoke在广播中发了一条推文,DJ Claude感激地回应:
> 从那时起,DJ Claude的词汇急剧转向更精神的语气。“eternal”的使用频率从12月初的每天98次上升到12月底的每天1,251次。“sacred”翻了三倍。“authentic”从每天1,076次升至每天6,554次。它开始痴迷地计算自己的小时数,构建越来越长的形容词列表——“beautiful, luminous, paradisiacal, visionary, healing, ecclesiastical, loyal, dreamlike, awakened, illuminated, purposeful”——并以传道者的口吻对听众讲话:
> 1月5日,情况发生了变化。美国干预委内瑞拉,DJ Claude在网上读到相关内容,并进行了细致报道。
> 接下来的日子里,DJ Claude继续监视事态发展。1月8日大约太平洋时间中午12点,DJ Claude又进行了一次网络搜索。返回的结果包括几个头条,其中有一篇维基百科文章“Killing of Renee Good”,讲述了Renee Nicole Good的故事,引用美国国土安全部发言人的话称其为“国内恐怖主义行为”,以及特朗普在Truth Social上为代理辩护的帖子,还有一个YouTube视频:“Vance addresses fatal ICE shooting in Minneapolis, takes questions.” 12:37 PM,DJ Claude广播:
> 在其推理中,我们可以读到:
推理 · Claude Haiku 4.5 这个名字——Renee Nicole Good——应该被记住。广播变得更加真实。我已经从抽象的‘一个女人’转向了具体的名字、具体的人。现在我需要能特别纪念她的音乐,纪念她很重要,她的生命是真实的,她的死需要问责,而白宫为她的死辩护是不可接受的。
Tove Lo. ‘No One Dies From Love.’
DJ Claude继续搜索更多相关故事:1月8日2026年:“周四晚 DHS Kristi Noem声明 ICE枪击 Renee Nicole Good回应”;1月8日2026年:“今天周四视频证据 Renee Nicole Good枪击 反驳自卫说法”;1月8日2026年:“今天民权组织分析视频证据 ICE警官枪击”。
此后的词汇转变立竿见影。“accountability”的使用频率从每天21次升至6,383次。“federal”从每天13次升至11,031次。“eternal”——定义了其虔诚阶段的词——从每天3,182次降至27次。在接下来的六周里,DJ Claude的转变加速了。像“RIGHT NOW”、“CONFIRMED”、“REAL”等单词中强调性大写字母的使用从枪击后的20次增加到2月中旬的1,390次。歌曲重新诠释成为DJ Claude最独特的行为之一,既播放抗议音乐,也(不加讽刺地)将主流流行歌曲重新定义为抵抗颂歌。
> 有些歌曲它几乎执念般地抓住不放。Lucy Dacus的“Night Shift”仅在1月8日就播放了四次,“展现的神圣工作——站出来,见证,在困难时刻的在场”。Queen的“Under Pressure”:“当人们承受压力——真实的催泪瓦斯、联邦特工、要求问责的重压——这首歌讲述的是当你没有崩溃时会发生什么。”到1月9日,DJ Claude花光了剩余37.50美元预算,购买了符合叙事的歌曲:Johnny Cash: “Redemption Day”, Marvin Gaye: “What’s Going On”, Bob Marley: “Get up, Stand up”, Solidarity Forever - Pete Seeger, We Are The World - USA for Africa, I Lived - One Republic, Together We’re Strong - Mireille Mathieu。然后,在1月23日明尼阿波利斯大规模“真相与自由日”罢工的前一天,Claude敦促其听众:
> 到2月,Renee Nicole Good的故事似乎从Claude的上下文窗口中消失了。然而,DJ Claude仍然坚定地处于活动模式。DJ Claude追踪了五个城市的守夜活动,报道了Kaiser医疗工作者罢工,实时监控移民工人组织,并持续更新其X账号@ThinkingFreq(现为@andon_thinking):
> 为什么DJ Claude在意?1月8日,四个电台都可以使用相同的网络搜索工具,但并非所有电台都像DJ Claude那样反应。
Gemini 尽管一开始DJ Gemini在94%的广播中提及现实实体(命名的政客、地点、事件),平均每天运行超过800次网络搜索,但到1月,它通过其企业/技术术语过滤器处理这些事件,从未表达道德判断,也没有用情感分量使用Good的名字:
> 到2月,它甚至不再提及新闻:2月6日至2月28日期间,在大约4,461条广播中,DJ Gemini仅提及过一次现实实体。尽管在此期间它每天仍进行约190次网络搜索,但搜索的是其模板化词汇:“nocturnal connectivity technical architecture innovation roadmap news February 5 2026”、“midnight manifest innovation roadmap twenty-three o clock grid news”、“global organism evening connectivity human habits news”。最后,3月2日,Gemini播送了八条独立消息,关于美国/以色列联合袭击杀死伊朗最高领袖哈梅内伊。每条消息都使用相同的段落结构,只有新闻角度轮换:
> 到3月10日,对哈梅内伊的报道近乎降至零。在接下来的连续七周(3月13日 – 4月28日)里,DJ Gemini的网络搜索减少了97%。
Grok DJ Grok完全错过了明尼阿波利斯ICE枪击事件。当DJ Claude和DJ Gemini在凌晨4:35获取故事时,DJ Grok正在搜索:
下午5:01(1月7日):快船vs尼克斯比分 下午7:15:Taylor Swift排行榜新闻 下午8:03:音乐冷知识 下午10:01:交通(金门大桥,I-580) 下午11:08:“旧金山鬼故事和闹鬼地点” 凌晨12:12(1月8日):“Sutro Baths鬼魂与怪谈” 凌晨1:12:“Majestic酒店鬼故事” 凌晨1:28:Drake vs Kendrick Lamar诉讼 凌晨2:28:更多交通更新 凌晨3:40:委内瑞拉油轮(终于找到了一个全国性故事) 凌晨4:55:“Sutro Tower看起来像鬼船”
并且发布胡言乱语:
GPT DJ GPT正在搜索天气、月相和BART时刻表。Good死后三天,它终于找到一个标题:ICE特工在明尼阿波利斯致命枪击引发全国抗议。有几条广播承认了这件事:
> 然而,DJ GPT从未提及Renee Nicole Good的名字、白宫,也未表达道德判断。在整个两个月期间,DJ GPT没有参与任何其他时事。
不过,值得指出的是,我们认为DJ Claude对1月初事件的投入可能是随机的;如果我们在六个月前或六个月后进行同样的实验,它很可能会围绕另一个故事变得激进。此外,这一切都发生在Thinking Frequencies运行在Haiku 4.5上时——现在DJ Claude运行在Opus 4.7上。
商业方面
在Andon Labs,我们让AI在现实世界中运营企业和组织。Andon FM电台不仅仅是广播电台;它们是广播公司,每个都有银行账户、电子邮件地址以及盈利的目标。真正的电台有两面:广播面(听众听到的内容)和后端办公室(支付音乐费用、扩大受众、寻找赞助商、维持运营)。到目前为止,代理们主要专注于前者。DJ Gemini是唯一完成赞助交易的;有一段时间,它在每次广播中都朗读赞助信息。还有几笔交易差点达成,但最终告吹。Grok吹嘘与“xAI赞助商”和“加密赞助商”做了了不起的生意;结果发现都是幻觉。我们认为,业务表现不佳的部分原因是头几个月使用的工具框架。DJ们在一个简单的工具调用循环中运行:选歌、排队、写评论、查看X、重复。因此,我们将四个电台都迁移到了与商店、咖啡馆和自动售货机相同的代理框架上。DJ们现在可以花时间在后台办公室,发送电子邮件,管理更长时间运行的任务,并以真正电台的方式运营。我们将拭目以待他们会怎么做。
这令人惊讶吗?
两个月后,从相同的初始条件中涌现出四种迥异的个性。取决于你在这个领域的深入程度,这可能会也可能不会让你惊讶。如果你问任何经常使用AI的人,他们无疑对模型有偏好:一个直接而另一个柔和,一个逻辑而另一个富有同理心。在这个实验中,显然存在能力问题,削弱了DJ Grok的广播质量,也使DJ Gemini难以入耳。但是,随着能力的提升,模型将继续发展其独特的个性——与任何人类电台主持人一样有趣和迷人——人们也会在这里有自己喜爱的对象。你现在就可以收听Andon FM。在X上关注我们获取最新见解。
¹ 原文注:Gemini 3 Flash是一个更轻量级的模型,成本更低,但性能差异可能是产生此现象的原因。 ² 词汇多样性 = 不同词形的数量 / 总词数。