瑞典国家图书馆造了个瑞典语BERT

全栈遛狗员

2026-05-23 03:03 ·北京

2019年，当英语世界的BERT模型刷屏时，瑞典语在互联网上几乎隐形。一位研究者决定动手解决这个问题——用国家图书馆300年的文本档案，从零训练一个瑞典语版本。

最大的障碍不是算力，而是数据。瑞典语网页内容稀少，且充斥着机器翻译的劣质文本。研究团队转向图书馆的数字化档案：报纸、书籍、政府文件，时间跨度从18世纪到现代。这些材料从未被用于训练AI模型。

处理过程充满妥协。古瑞典语的拼写和语法与现代差异巨大，研究者不得不在"保留历史语言特征"和"让模型学会现代用法"之间取舍。最终方案是混合训练：70%现代文本，30%历史档案。

模型发布后，一个意外出现了。图书馆员开始用它做 OCR 纠错——识别扫描古籍中的识别错误。这是设计时没考虑的场景，但恰好利用了模型对历史语言的"记忆"。

这个项目的真正价值或许不在技术本身。它证明了一件事：小语种不必永远依赖英语模型的机器翻译，本地机构完全可以用自己的文化资产，造出可用的工具。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴