AI Pulse

让我们谈谈AI垃圾信息对开源的影响

让我们谈谈AI垃圾信息对开源的影响

我们所熟知的开源终结

几个月前,GitHub分享了关于AI在其产品指标中巨大贡献的统计数据,完全忽略了贡献质量下降的问题时,我们已经感觉到事情正在恶化。

第一个令人担忧的时刻是我们发布的带有900美元赏金的问题。我们希望能激励有人贡献,为我们的平台带来闪亮的新“MCP Apps”支持。我们很快吸引了合法贡献者的注意,他们提出了计划、提问、提交尝试——但很快……

AI机器人出现了,炸掉了那个问题,使其评论总数达到253条,用毫无意义的“实施方案”甚至对维护者的纯粹攻击污染了对话!

AI账户不仅淹没了这个问题,而是整个仓库。每个草率的评论都会触发通知给每个关注仓库的团队成员。我们的GitHub通知变成了噪音墙。来自@ethanwater@developerfred@Geetk172等贡献者的真实对话——那些正在积极处理赏金的人——被埋没了。

后来,问题变成了流行病。例如,仅为了给Archestra添加x.ai提供商支持这个问题,我们就收到了27个拉取请求,其中大多数贡献者甚至没有尝试测试。

我们的一名团队成员每周不得不花半天时间清理仓库中的AI垃圾,删除未经测试的PR并关闭幻觉产生的问题。当我们忘记这样做时,我们的仓库迅速变成了对合法贡献者完全不友好的地方。

反击

起初,我们尝试计算贡献者的“声誉”,并构建了“London-Cat”,一个基于合并的PR和其他几个信号计算贡献者声誉的小型机器人(示例)。它显然没有阻止垃圾信息,但帮助我们弄清楚了“谁是谁”。

作为下一步,我们构建了一个“AI警长”(示例),它显然关闭了几个合法的PR🤦。

源源不断的无用AI评论和提案只会越来越糟,使合法贡献者远离,让我们重新思考:我们是否应该停止用赏金激励贡献?我们是否应该停止给求职者提供有趣的测试任务?

我们决定需要反击,并坚持让我们的仓库成为合法贡献者、负责任的AI用户、新人和经验丰富的工程师的舒适和安全空间。

今天,我们正在阻止那些没有完成入职流程的人创建问题、打开PR和发表评论的能力。

贡献者入职,获得白名单的五个步骤

这是一个核选项,是的。对于一个VC支持的初创公司来说尤其敏感,因为GitHub活动会被仔细衡量,但我们不得不扣动扳机:我们重视质量而非数量。我们不重视被AI垃圾充斥的指标。

我们希望Archestra成为一款优秀的软件,每个人都可以贡献,而不会被AI机器人吞噬。

在GitHub中实现

没有直接的方法可以在开源仓库中白名单那些可以评论或创建PR的人,所以我们不得不采取黑客手法。

有一个设置叫做“限制为先前贡献者”。简单规则:如果你之前没有提交到主分支,就不能评论问题或PR。

先前贡献者设置

这个设置无法区分AI机器人和注册来处理赏金的真正开发者。两者都是“非先前贡献者”。两者都被锁定。

GitHub将“先前贡献者”定义为其GitHub账户是主分支提交作者的人。Git提交有两个身份字段——作者和提交者——它们可以是不同的人。

你可以使用Git的--author标志创建归属于其他人的提交。如果电子邮件匹配他们的GitHub账户,GitHub会将提交链接到他们的个人资料,并授予他们贡献者状态。

每个GitHub账户都有一个无回复电子邮件:<id>+<username>@users.noreply.github.com。通过API查找ID并提交:

` gh api users/their-username --jq '.id'

git commit \ --author="their-username <ID+their-username@users.noreply.github.com>" \ -m "chore: add their-username to external contributors" `

推送到主分支,他们就可以立即评论。

归属于外部用户的提交

外部用户显示为作者,我们的账户显示为提交者。这就是GitHub将他们视为先前贡献者所需的全部。

完整流程:

- 在我们的网站上使用道德AI规则和CAPTCHA进行入职:https://archestra.ai/contributor-onboard - 一个GitHub Action在提交后触发,查找用户GitHub ID,将其句柄添加到EXTERNAL_CONTRIBUTORS.md文件,并以该用户账户为作者将提交推送到主分支。 - 用户被白名单化并可以访问仓库。

最后的话

虽然GitHub报告指标大幅增长——其中很大一部分是AI生成的——但我们作为开源项目团队不得不承担清理仓库中AI垃圾的重任,并想出了一些奇怪的变通方法来保持开源观众的可信度。

垃圾不仅使那些想要花时间做好事但不得不突破噪音墙的贡献者失去动力,还带来了重大的安全风险,就像在LiteLLM仓库中发生的那样,攻击者试图用AI机器人引导对话。

亲爱的社区,是时候认真讨论AI对开源的影响了。

阅读原文
📚 相关主题 开源工程

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部