2019年,当英语世界的BERT模型刷屏时,瑞典语在互联网上几乎隐形。一位研究者决定动手解决这个问题——用国家图书馆300年的文本档案,从零训练一个瑞典语版本。
最大的障碍不是算力,而是数据。瑞典语网页内容稀少,且充斥着机器翻译的劣质文本。研究团队转向图书馆的数字化档案:报纸、书籍、政府文件,时间跨度从18世纪到现代。这些材料从未被用于训练AI模型。
打开网易新闻 查看精彩图片
处理过程充满妥协。古瑞典语的拼写和语法与现代差异巨大,研究者不得不在"保留历史语言特征"和"让模型学会现代用法"之间取舍。最终方案是混合训练:70%现代文本,30%历史档案。
打开网易新闻 查看精彩图片
模型发布后,一个意外出现了。图书馆员开始用它做 OCR 纠错——识别扫描古籍中的识别错误。这是设计时没考虑的场景,但恰好利用了模型对历史语言的"记忆"。
打开网易新闻 查看精彩图片
这个项目的真正价值或许不在技术本身。它证明了一件事:小语种不必永远依赖英语模型的机器翻译,本地机构完全可以用自己的文化资产,造出可用的工具。
热门跟贴