英国图书馆放出2.8万本书，有人训了个 Victorian 版 |victorian|世纪|维多利亚|翻译|英国图书馆

340亿参数的大模型你跑不动，3.4亿的 Victorian 古董 AI 总行了吧？Trip Venturella 从英国图书馆扒了 28,035 本 1837-1899 年的公版书，训出了 Mr. Chatterbox——一个只读过狄更斯、没听过 GPT 的"老派聊天机器人"。

整个模型 2.05GB，能塞进你的笔记本。问题是：它好用吗？

训练数据比模型还"老"

Mr. Chatterbox 的语料库硬切割在 1899 年。维多利亚女王还在位，汽车刚发明，飞机是科幻概念。2.93 billion（十亿）个训练 token 全部来自那个年代的英国出版物——小说、报纸、学术期刊、政府文件，什么都有。

Trip Venturella 选这个时间点很刁钻。英国版权法规定作者死后 70 年进入公版，1899 年的书到现在铁定自由使用。没有版权纠纷，没有 OpenAI 那种"爬了全网被告"的麻烦。

模型架构倒是很现代：基于 Andrej Karpathy 的 nanochat，340 million（百万）参数，跟 2019 年的 GPT-2-Medium 同量级。但 GPT-2 是全网数据喂出来的，Mr. Chatterbox 只啃过发霉的羊皮纸味文本。

结果就是一个会写维多利亚式长句、但答非所问的"话痨先生"。

作者 Simon Willison 实测后的评价很直白："跟它聊天更像在玩马尔可夫链（Markov chain，一种基于概率的简单文本生成模型），而不是 LLM。"回复确实有股优雅的复古腔调，但想让它正经回答个问题？费劲。

数据量差 4 倍，体验差一个时代

2022 年的 Chinchilla 论文给过一条铁律：训练 token 数最好是参数量的 20 倍。按 340m 参数算，Mr. Chatterbox 需要 70 亿 token 才能"吃饱"，实际只用了 29 亿，缺口超过一半。

对比当下主流小模型更扎心。阿里 Qwen 3.5 家族里 600m 参数的版本只是入门，真正能用要到 2b（20 亿）参数起步。Mr. Chatterbox 的参数量不到人家的六分之一，数据量更是被碾压。

Willison 的估算很克制：想把这玩意儿训到"能正常对话"，训练数据至少得翻 4 倍。英国图书馆的 19 世纪藏品够吗？理论上够——该馆数字化馆藏超过 5000 万本，但筛选、清洗、标注都是体力活。

Trip 已经证明了"纯公版数据训模型"这条路能走通，只是终点比想象中远。

2GB 模型本机跑，Claude 写的插件

Willison 玩了个骚操作：用 Claude Code（Anthropic 的 AI 编程助手）写了整套本地运行方案。从拉取模型权重、适配 nanochat，到打包成 LLM 框架的插件，几乎全自动。

最终产物叫 llm-mrchatterbox，安装命令就一行：

llm install llm-mrchatterbox

首次运行会自动从 Hugging Face 下载 2.05GB 的模型文件。之后你可以这样打招呼：

llm -m mrchatterbox "Good day, sir"

或者开连续对话：

llm chat -m mrchatterbox

连 LLM 框架都没装的人也能用 uvx 零配置启动：

uvx --with llm-mrchatterbox llm chat -m mrchatterbox

玩腻了删缓存也简单，llm mrchatterbox --remove 清干净。整个过程不需要显卡，CPU 就能跑——毕竟 340m 参数的模型，算力需求跟跑个 Chrome 标签页差不多。

这玩意儿到底有什么用

说实话，现阶段更像行为艺术。你想问它 2020 年的事，它连"什么是互联网"都编不出来。它的知识边界就是 1899 年 12 月 31 日，多一天都没有。

但 Willison 点出了一个真需求：过去两年，"无侵权数据训模型"几乎是 AI 伦理圈的圣杯。OpenAI、Meta、Google 全被告了个遍，版权官司从旧金山打到伦敦。Mr. Chatterbox 提供了一个干净的基准线——如果只用公版书，模型能差到什么程度？

答案现在是：差到不能用。但差多少可以量化，这就值了。

另一个隐藏价值是"时代切片"。19 世纪英国的词汇用法、社会观念、叙事结构，被压缩进了 2GB 的权重里。历史学家拿它做文本分析，可能比翻原始档案更高效。游戏开发者做维多利亚背景 RPG，也能用它批量生成对话草稿——虽然得人工校对。

Trip 在 HuggingFace 放了在线 Demo，不用装任何东西就能试。输入框里打一句现代英语，看它怎么翻译成 1899 年的腔调，本身就是一种考古。

Willison 的测试记录里有个细节：他让 Claude Code 读插件教程时，AI 助手"花了点时间理解 nanochat 的权重格式"。连 Claude 都没见过这么复古的训练产物。最后一段对话截图里，Mr. Chatterbox 用五句话回应了一句简单的"你好"，每句都带从句，像在写《荒凉山庄》的续集。

如果公版书数据量真的翻 4 倍，这个老派话痨能进化成合格的聊天搭子吗？还是说 19 世纪的语料本身就有天花板——毕竟那时候没人写过"什么是机器学习"？