340亿参数的大模型你跑不动,3.4亿的 Victorian 古董 AI 总行了吧?Trip Venturella 从英国图书馆扒了 28,035 本 1837-1899 年的公版书,训出了 Mr. Chatterbox——一个只读过狄更斯、没听过 GPT 的"老派聊天机器人"。
整个模型 2.05GB,能塞进你的笔记本。问题是:它好用吗?
训练数据比模型还"老"
Mr. Chatterbox 的语料库硬切割在 1899 年。维多利亚女王还在位,汽车刚发明,飞机是科幻概念。2.93 billion(十亿)个训练 token 全部来自那个年代的英国出版物——小说、报纸、学术期刊、政府文件,什么都有。
Trip Venturella 选这个时间点很刁钻。英国版权法规定作者死后 70 年进入公版,1899 年的书到现在铁定自由使用。没有版权纠纷,没有 OpenAI 那种"爬了全网被告"的麻烦。
模型架构倒是很现代:基于 Andrej Karpathy 的 nanochat,340 million(百万)参数,跟 2019 年的 GPT-2-Medium 同量级。但 GPT-2 是全网数据喂出来的,Mr. Chatterbox 只啃过发霉的羊皮纸味文本。
结果就是一个会写维多利亚式长句、但答非所问的"话痨先生"。
作者 Simon Willison 实测后的评价很直白:"跟它聊天更像在玩马尔可夫链(Markov chain,一种基于概率的简单文本生成模型),而不是 LLM。"回复确实有股优雅的复古腔调,但想让它正经回答个问题?费劲。
数据量差 4 倍,体验差一个时代
2022 年的 Chinchilla 论文给过一条铁律:训练 token 数最好是参数量的 20 倍。按 340m 参数算,Mr. Chatterbox 需要 70 亿 token 才能"吃饱",实际只用了 29 亿,缺口超过一半。
对比当下主流小模型更扎心。阿里 Qwen 3.5 家族里 600m 参数的版本只是入门,真正能用要到 2b(20 亿)参数起步。Mr. Chatterbox 的参数量不到人家的六分之一,数据量更是被碾压。
Willison 的估算很克制:想把这玩意儿训到"能正常对话",训练数据至少得翻 4 倍。英国图书馆的 19 世纪藏品够吗?理论上够——该馆数字化馆藏超过 5000 万本,但筛选、清洗、标注都是体力活。
Trip 已经证明了"纯公版数据训模型"这条路能走通,只是终点比想象中远。
2GB 模型本机跑,Claude 写的插件
Willison 玩了个骚操作:用 Claude Code(Anthropic 的 AI 编程助手)写了整套本地运行方案。从拉取模型权重、适配 nanochat,到打包成 LLM 框架的插件,几乎全自动。
最终产物叫 llm-mrchatterbox,安装命令就一行:
llm install llm-mrchatterbox
首次运行会自动从 Hugging Face 下载 2.05GB 的模型文件。之后你可以这样打招呼:
llm -m mrchatterbox "Good day, sir"
或者开连续对话:
llm chat -m mrchatterbox
连 LLM 框架都没装的人也能用 uvx 零配置启动:
uvx --with llm-mrchatterbox llm chat -m mrchatterbox
玩腻了删缓存也简单,llm mrchatterbox --remove 清干净。整个过程不需要显卡,CPU 就能跑——毕竟 340m 参数的模型,算力需求跟跑个 Chrome 标签页差不多。
这玩意儿到底有什么用
说实话,现阶段更像行为艺术。你想问它 2020 年的事,它连"什么是互联网"都编不出来。它的知识边界就是 1899 年 12 月 31 日,多一天都没有。
但 Willison 点出了一个真需求:过去两年,"无侵权数据训模型"几乎是 AI 伦理圈的圣杯。OpenAI、Meta、Google 全被告了个遍,版权官司从旧金山打到伦敦。Mr. Chatterbox 提供了一个干净的基准线——如果只用公版书,模型能差到什么程度?
答案现在是:差到不能用。但差多少可以量化,这就值了。
另一个隐藏价值是"时代切片"。19 世纪英国的词汇用法、社会观念、叙事结构,被压缩进了 2GB 的权重里。历史学家拿它做文本分析,可能比翻原始档案更高效。游戏开发者做维多利亚背景 RPG,也能用它批量生成对话草稿——虽然得人工校对。
Trip 在 HuggingFace 放了在线 Demo,不用装任何东西就能试。输入框里打一句现代英语,看它怎么翻译成 1899 年的腔调,本身就是一种考古。
Willison 的测试记录里有个细节:他让 Claude Code 读插件教程时,AI 助手"花了点时间理解 nanochat 的权重格式"。连 Claude 都没见过这么复古的训练产物。最后一段对话截图里,Mr. Chatterbox 用五句话回应了一句简单的"你好",每句都带从句,像在写《荒凉山庄》的续集。
如果公版书数据量真的翻 4 倍,这个老派话痨能进化成合格的聊天搭子吗?还是说 19 世纪的语料本身就有天花板——毕竟那时候没人写过"什么是机器学习"?
热门跟贴