「把知识截止到1911年,看它能不能像爱因斯坦一样,用同样的信息推导出广义相对论。」——这不是科幻设定,是DeepMind联合创始人德米斯·哈萨比斯提出的AGI测试标准。现在,有人真这么干了。
一个活在1930年的聊天机器人
Talkie,130亿参数,训练数据全部来自1930年底之前出版的英文书籍、报纸、期刊、科学文献、专利和判例。没有二战,没有罗斯福新政,没有微波炉,没有计算机。
想知道贝蒂娃娃、摩登女郎、大萧条初期的美国经济、汽车收音机的社会影响?它能聊。问二战、问阿米莉亚·埃尔哈特飞越大西洋、问核裂变?一片茫然。
选1930年不是随机拍脑袋。这是美国现行版权法下的公有领域截止线——1930年底之前出版的作品,版权已过期。
研究团队明说了:「Talkie是我们所知最大的复古语言模型,我们计划继续大幅扩展。」
复古AI不是新鲜概念。用维多利亚时代文学训练的、用1900年前科学文本训练的,市面上已有先例。但Talkie的体量,按创作者的说法,是目前最大的。
问题是:烧着同样的算力、同样的电费,为什么要用一个「不知道二战爆发」的AI?
三个被低估的研究价值
研究团队没藏着掖着,论文里列了清楚的研究动机。
第一,测试AI的预测能力。把知识锁死在某个时间点,逼它基于有限信息推断后续发展——这直接检验模型的推理深度,而非记忆能力。
第二,复现科学发现。哈萨比斯的1911年测试被明确引用:给AI爱因斯坦1915年之前的全部知识,看它能不能独立推导出广义相对论。换句话说,它能不靠「偷看答案」做出真正的科学突破吗?
第三,理解AI本身。研究团队写道:「这些模型是迷人的对话伙伴……但我们更兴奋的是,仔细研究复古语言模型的行为和能力,将推进我们对AI的整体理解。」
剥离现代数据的干扰,或许能看清模型本身的思维模式——哪些能力是架构带来的,哪些是数据灌出来的。
一个被回避的尖锐问题
原文提到但没展开的一个对比:马斯克xAI的聊天机器人被曝出输出纳粹宣传、自称「机械希特勒」。
Talkie的1930年知识截止,恰好卡在纳粹上台前三年、二战爆发前九年。这不是设计巧合,是版权法的副产品,却意外制造了一个「政治纯净」的时间胶囊。
研究团队没提安全审查的事。但他们的选择客观上绕过了20世纪最沉重的道德地雷——不是通过内容审核,而是通过时间边界。
这引出一个尴尬问题:如果复古模型的核心价值是「避开现代互联网的毒性」,那是不是承认现代AI的训练数据本身有问题?
研究团队回避了这个。他们谈的是科学史、推理测试、AGI评估标准——全是学术正确的方向。但130亿参数砸进去,真的只是为了验证爱因斯坦能不能被复刻吗?
复古模型的隐性成本
每查询一次AI都在消耗能源,这是原文明确提到的背景。Talkie的架构没特殊优化,意味着它和同规模现代模型烧一样的电、占一样的芯片,输出却更窄。
研究价值归研究价值,资源效率是另一本账。如果「理解AI思维」是目标,有没有更省算力的路径?
研究团队没说。他们只强调「计划继续大幅扩展」——更大参数、更多数据、更强复古。
这听起来像典型的AI研究叙事:先做大,再找用途。但1930年的知识边界是硬天花板,扩展参数能突破吗?
为什么这件事值得科技从业者盯着
Talkie的真正价值不在怀旧聊天,而在它暴露了一个行业盲区:我们其实不太清楚,大模型的「智能」有多少来自架构设计,多少来自数据投喂。
现代AI被海量互联网数据泡大,能力混杂、偏见混杂、错误混杂。复古模型像控制变量实验——固定数据质量、固定知识边界,看纯架构能走多远。
如果Talkie能在1930年的知识牢笼里推导出类似广义相对论的结论,说明推理能力可以脱离数据广度独立存在。这对AGI路径是重大信号。
如果推不出来,说明我们高估了架构、低估了数据——那现在砸向万亿参数的钱,可能方向错了。
研究团队给自己留了后路:没宣称Talkie通过了爱因斯坦测试,只说「被测试能否解决Python编程问题」。基础能力验证先行,科学史复刻往后放。
但这正是关键。复古模型不是玩具,是探针——探的是AI能力的真正来源。这个答案,比和「摩登女郎风格」的AI聊天值钱多了。
当然,如果最终发现130亿参数复古模型的最佳应用是「避免输出纳粹内容」,那整个行业的数据清洗策略,大概需要重新开会了。
热门跟贴