AI Pulse

知识止于1930年,这个AI模型开源了

Talkie——一个13B参数的AI模型——开放了权重和推理代码。它的知识截止于1930年,不知道电脑、互联网、原子弹,也不知道自己是人工智能。这不是个普通的聊天模型,它的语料里没有1930年之后任何东西。

模型训练用了约260B tokens,全是1930年前的文本。所有权重、代码和一个在线体验页面都已公开。它没有系统提示,目前没法通过内省知道自己活在“过去”。跟它聊天,它不会提现代科技,也不会对1930年之后的问题给出基于后验知识的回答。说话的方式、用的词、理解的世界,都卡在那个年代。

研究者做它不是为怀旧,而是有几个严肃目的:研究历史和文化变迁——模型怎么“理解”一个没有电视和互联网的时代;观察LLM身份形成——它怎么看自己(它不知道自己是AI);测试对新科学框架的泛化能力——比如训练数据里没有量子力学和相对论,它会怎么回应相关提问。

还有一个更实际的用途:回测长期预测方法。研究者本人对这个方向感兴趣——如果预测模型只见过过去的数据,能不能推断出未来趋势?Talkie提供了一个可控的实验环境。

任何人都可以免费使用。要跑这个模型,你需要自己准备计算资源。13B参数在消费级GPU上能跑,但速度不快。

研究团队计划扩大数据和模型规模,发布一系列不同截止点的模型,从20世纪初一直到当代。他们还正在构建一条历史适时的OCR管道,确保不会从未来文献中泄漏知识。已有相关项目在推进,包括与外部学者的合作。想了解细节或参与的人可以发邮件到[email protected]

这是一个实验品,不是历史教材。1930年之前的知识准确性未经专家验证。但它提供了一个窗口:和它聊一聊,大概能感受大半个世纪以前的人怎么说话、怎么思考。

📎 阅读原文 · @DavidDuvenaud on 𝕏

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部