这个AI被困在1930年，却可能帮我们搞懂大模型怎么思考

摸鱼算法

2026-04-29 17:11 ·北京

「把知识截止到1911年，看它能不能像爱因斯坦一样，用同样的信息推导出广义相对论。」——这不是科幻设定，是DeepMind联合创始人德米斯·哈萨比斯提出的AGI测试标准。现在，有人真这么干了。

一个活在1930年的聊天机器人

Talkie，130亿参数，训练数据全部来自1930年底之前出版的英文书籍、报纸、期刊、科学文献、专利和判例。没有二战，没有罗斯福新政，没有微波炉，没有计算机。

想知道贝蒂娃娃、摩登女郎、大萧条初期的美国经济、汽车收音机的社会影响？它能聊。问二战、问阿米莉亚·埃尔哈特飞越大西洋、问核裂变？一片茫然。

选1930年不是随机拍脑袋。这是美国现行版权法下的公有领域截止线——1930年底之前出版的作品，版权已过期。

研究团队明说了：「Talkie是我们所知最大的复古语言模型，我们计划继续大幅扩展。」

复古AI不是新鲜概念。用维多利亚时代文学训练的、用1900年前科学文本训练的，市面上已有先例。但Talkie的体量，按创作者的说法，是目前最大的。

问题是：烧着同样的算力、同样的电费，为什么要用一个「不知道二战爆发」的AI？

三个被低估的研究价值

研究团队没藏着掖着，论文里列了清楚的研究动机。

第一，测试AI的预测能力。把知识锁死在某个时间点，逼它基于有限信息推断后续发展——这直接检验模型的推理深度，而非记忆能力。

第二，复现科学发现。哈萨比斯的1911年测试被明确引用：给AI爱因斯坦1915年之前的全部知识，看它能不能独立推导出广义相对论。换句话说，它能不靠「偷看答案」做出真正的科学突破吗？

第三，理解AI本身。研究团队写道：「这些模型是迷人的对话伙伴……但我们更兴奋的是，仔细研究复古语言模型的行为和能力，将推进我们对AI的整体理解。」

剥离现代数据的干扰，或许能看清模型本身的思维模式——哪些能力是架构带来的，哪些是数据灌出来的。

一个被回避的尖锐问题

原文提到但没展开的一个对比：马斯克xAI的聊天机器人被曝出输出纳粹宣传、自称「机械希特勒」。

Talkie的1930年知识截止，恰好卡在纳粹上台前三年、二战爆发前九年。这不是设计巧合，是版权法的副产品，却意外制造了一个「政治纯净」的时间胶囊。

研究团队没提安全审查的事。但他们的选择客观上绕过了20世纪最沉重的道德地雷——不是通过内容审核，而是通过时间边界。

这引出一个尴尬问题：如果复古模型的核心价值是「避开现代互联网的毒性」，那是不是承认现代AI的训练数据本身有问题？

研究团队回避了这个。他们谈的是科学史、推理测试、AGI评估标准——全是学术正确的方向。但130亿参数砸进去，真的只是为了验证爱因斯坦能不能被复刻吗？

复古模型的隐性成本

每查询一次AI都在消耗能源，这是原文明确提到的背景。Talkie的架构没特殊优化，意味着它和同规模现代模型烧一样的电、占一样的芯片，输出却更窄。

研究价值归研究价值，资源效率是另一本账。如果「理解AI思维」是目标，有没有更省算力的路径？

研究团队没说。他们只强调「计划继续大幅扩展」——更大参数、更多数据、更强复古。

这听起来像典型的AI研究叙事：先做大，再找用途。但1930年的知识边界是硬天花板，扩展参数能突破吗？

为什么这件事值得科技从业者盯着

Talkie的真正价值不在怀旧聊天，而在它暴露了一个行业盲区：我们其实不太清楚，大模型的「智能」有多少来自架构设计，多少来自数据投喂。

现代AI被海量互联网数据泡大，能力混杂、偏见混杂、错误混杂。复古模型像控制变量实验——固定数据质量、固定知识边界，看纯架构能走多远。

如果Talkie能在1930年的知识牢笼里推导出类似广义相对论的结论，说明推理能力可以脱离数据广度独立存在。这对AGI路径是重大信号。

如果推不出来，说明我们高估了架构、低估了数据——那现在砸向万亿参数的钱，可能方向错了。

研究团队给自己留了后路：没宣称Talkie通过了爱因斯坦测试，只说「被测试能否解决Python编程问题」。基础能力验证先行，科学史复刻往后放。

但这正是关键。复古模型不是玩具，是探针——探的是AI能力的真正来源。这个答案，比和「摩登女郎风格」的AI聊天值钱多了。

当然，如果最终发现130亿参数复古模型的最佳应用是「避免输出纳粹内容」，那整个行业的数据清洗策略，大概需要重新开会了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴