五年前AI就能编出逼真新闻稿,现在我们还在假装能管住它
有人在 Reddit 上发帖,用“安第斯山脉独角兽会说英语”开头,让 AI 续写。三分钟后,屏幕上出现了一篇结构完整、有引语、有机构名称、有虚构科学家姓名和单位的“新闻稿”。材料显示,这很可能是 GPT-2 的输出——2019 年 OpenAI 训练出的语言模型。
OpenAI 当时没公开完整模型,只放出一个缩水版,连训练数据和代码一并封存。他们称这是“安全考量”:不是防黑客攻击,而是担心普通人随手生成以假乱真的新闻、评论、客服回复甚至法律文书。不少同行私下质疑:这真有那么危险?毕竟模型还会胡诌“水下火灾”这样的矛盾表述。
GPT-2 从约 800 万网页中学习语言的统计规律。如今,部分手机已能运行比它更强的模型。一些应用允许用户通过简单操作生成结构完整的文本,无需专业设备或编程知识。
GPT-2 的完整版半年后还是公开了。再之后,GPT-3、GPT-4、Claude、Gemini 陆续登场。技术迭代很快,但关于如何识别、标注或限制这类内容,行业共识跟上了吗?