打开网易新闻 查看精彩图片

这项由柏林洪堡大学自然语言处理团队完成的研究,发表于2026年,论文编号为arXiv:2604.28075,有兴趣深入了解的读者可以通过该编号查询完整论文。研究的核心问题听起来像一个很实际的学习策略选择:当你想让一个AI模型学会德语,手头的训练材料有限时,你该怎么办?是给它看尽可能多的文章,哪怕良莠不齐?还是精挑细选出质量最高的那一批,反复让它学习,直到烂熟于心?

这个问题在英语AI领域几乎不成问题——英语互联网上的高质量文本数以万亿计,多到用不完。但德语、法语、日语这样的"大语种"就尴尬多了:网上的文本确实不少,几千亿个词,但和英语相比仍是小巫见大巫。一旦你开始严格筛选质量,可用的文本量就会骤然缩水。这时候,"精华反复读"和"广泛只读一遍"之间的取舍就变成了真正让研究者头疼的难题。

柏林洪堡大学的团队以德语为切入点,系统地比较了这两种策略。他们从一个包含近5亿份德语网页文档的数据集出发,设计了一套层层递进的质量筛选体系,训练了不同规模的语言模型,并用一套经过专门清洗和修正的德语评测基准来衡量结果。最终,他们的结论相当鲜明:反复学习精选内容,比广泛浏览大量普通内容更有效,而且这种优势在实验的整个过程中始终稳定存在,没有出现明显的"读腻了"效应。

一、训练AI读书,到底读什么?

要理解这项研究,先得明白AI语言模型是怎么"学习语言"的。简单来说,它就像一个疯狂读书的学生:把海量文本一页一页读过去,通过预测"下一个词是什么"来逐渐摸索出语言的规律。读得越多、读的内容越有营养,它掌握的语言知识就越扎实。

问题是,互联网上的文字质量参差不齐。有严谨的百科词条,有深度的新闻分析,也有胡言乱语的垃圾评论、堆砌关键词的SEO文章、残缺不全的HTML导出页面。如果不加区分地统统喂给AI,那就像让一个学生把图书馆里的书和门口的广告传单一视同仁地背诵——效率极低。

正因如此,研究团队专门为德语互联网文本设计了一套三层筛选标准,像过筛子一样层层提纯。第一层叫做"连贯性"筛选,目标是剔除那些语言混乱、结构破碎的文档——那些语句不通、东拼西凑的页面、截断的网页代码和碎片化的片段,统统不要。通过这一关的文档,至少在语言结构上是完整流畅的,哪怕内容本身未必多有价值。

通过了连贯性筛选,文档还要接受第二层考验:"信息价值"筛选。这一关专门寻找那些真正有干货的内容——技术报告、新闻文章、专业文档,而不是那些充斥着废话、广告套话和重复模板的页面。换句话说,这一层筛的是内容的含金量。

第三层也是最严格的一层,叫做"教育质量"筛选。这一关借鉴了英语AI领域一个著名项目"FineWeb-Edu"的思路,专门寻找那些具有教科书级别清晰度的内容——能够系统地解释概念、传授知识、像一本教材一样结构严谨的文章。能通过这三关的文档,是真正的精华中的精华。

研究团队把同时通过三层筛选的文档集合命名为"稠密核心"(Dense Core)。从将近5亿份原始文档中,最终只有约2450万份文档进入这个核心集,比例仅为5.1%,对应约280亿个词。相比之下,随机抽样基准集包含约1000亿个词——稠密核心只有它的不到三分之一。

二、"精读派"对"博览派",谁更胜一筹?

有了这套筛选体系,研究团队开始了正式的对决实验。他们设定了一个固定的"学习总量":无论用哪种策略,AI模型最终接触的文本总量都是1000亿个词。这就像规定了一个学生的总学习时间,区别只在于这段时间里他读的是什么。

"博览派"的代表是随机抽样策略:从海量德语网页中随机挑选文档,凑够1000亿词,一遍读完,不重复。"精读派"的代表是稠密核心策略:只取那280亿词的精华内容,但反复读,大约读3.6遍,加起来同样是1000亿词。

实验使用的是一个拥有3.5亿参数的语言模型(可以理解为一个中等体量的AI"大脑"),用六项德语测试来评估它的能力,涵盖常识推理、事实知识问答、语言续写等多个维度。

结果相当清晰:稠密核心模型的平均得分比随机抽样模型高出近5分(39.24对34.35)。更关键的是,这种优势不是在最后才体现出来的——通过对训练过程中不同阶段的检查,研究团队发现稠密核心从一开始就以更陡峭的曲线在进步,整个训练过程中始终领先。这说明高质量数据的好处是贯穿始终的,不是某种后期才显现的偶发现象。

三层筛选体系中的每一层也都有各自独立的贡献。仅做连贯性筛选的模型,比随机基准提升了约2分;加上信息价值筛选后,再多提升约1.6分;最终加上教育质量筛选,又有进一步提升。每一道筛选都在往好的方向推。

三、"读腻了"的担忧是真实的吗?

精读策略面临的最大质疑是:同样的内容反复学,AI会不会"背烂"?就像一个学生把同一本书背了三遍,他可能记住了字面内容,却失去了举一反三的能力。这种担忧在学术界由来已久,此前有研究建议,数据重复不要超过4遍,否则效果会递减甚至下降。

为了直接检验这一点,研究团队把训练预算扩大到了2000亿词,让稠密核心数据被重复读取约7.2遍。与此同时,随机抽样模型也继续用新的、之前没见过的文档来延伸训练,直到2000亿词。

出人意料的是,即使在2000亿词的终点,稠密核心模型依然领先。它没有出现性能下滑的迹象,也没有明显的"读腻了"效应——得分随着训练持续稳步提升,哪怕面对的是那些完全新鲜的随机文档的挑战。稠密核心从100亿词到200亿词的提升幅度,也明显大于随机模型同等训练量带来的提升。这说明,当数据质量足够高时,重复本身并不是问题。

研究团队还尝试了一种折中方案,叫做"分阶段课程":先用500亿词的随机数据打底,再切换到500亿词的稠密核心数据进行精读,希望兼顾广度和深度。这种方案在切换到高质量数据后确实出现了明显的性能加速,成绩也不错。但即便如此,它始终没能超越从头到尾都只用稠密核心训练的模型。这个结果暗示,早期接触的低质量数据,即便只是作为"热身",也会在一定程度上拖累整体效果。

四、模型越大,高质量数据的价值越高

前面的实验用的都是3.5亿参数的模型。研究团队接下来把模型规模扩大到10亿参数,相当于给AI换了一个更大的"大脑",重新做了随机基准和稠密核心的对比。

结论不仅在方向上保持一致,差距还更大了。3.5亿参数时,稠密核心领先约4.89分;10亿参数时,领先扩大到约5.14分。换句话说,模型越大,越能从高质量数据中榨取更多价值。这个规律说明,对于能力更强的模型,给它喂精华内容的回报更高。

更令人印象深刻的是横向比较。这个用1000亿词稠密核心训练的10亿参数模型,和一些用了数倍、乃至数十倍更多数据训练的知名多语言模型相比,性能不落下风,甚至在某些维度上还有领先。以德语单语模型LLaMmlein-1B为例,它用了整整1万亿词进行训练,而柏林洪堡大学的稠密核心模型只用了1000亿词——前者是后者的10倍——但两者的最终性能相当接近,稠密核心模型甚至略胜一筹。面对谷歌的Gemma-3-1B(用了约2万亿词)和Meta的Llama-3.2-1B(用了约9万亿词),稠密核心模型同样能够比肩甚至超越,而训练数据量分别只是它们的五十分之一和九十分之一。

五、精读的好处,在实际应用中同样成立

光在考卷上得高分还不够。研究团队还想知道,这种高质量预训练的优势,能不能在AI真正被使用的场景中体现出来——也就是当AI被调教成一个能和人对话、回答问题的助手时。

他们对所有训练好的基础模型进行了"指令微调"——可以理解为在基础语言能力之上,教AI如何礼貌、准确地回答问题和完成任务。微调所用的数据集是一个名为SMOLTALK2的德语指令数据集。微调完成后,用另一个大型AI(Llama-3.3-70B)来担任"考官",评估这些助手的回答质量,打一个1到10分的评分,同时判断回答是否正确。

结果和预训练阶段的发现高度一致:用稠密核心预训练的模型,微调后在1000个测试问题中答对了253道;而用随机数据预训练的模型,只答对了178道。即便是那个比较受期待的"分阶段课程"模型,答对231道,也与稠密核心有明显差距。

有一个细节格外值得注意。此前提到,还有另一个外部团队(Messmer等人)用了不同方法筛选出一个德语数据集,他们的筛选策略是尽量让数据接近常见的指令问答格式,相当于"用目标场景的文本来训练模型"。按常理推断,这种策略在指令微调评测上应该有优势。但实验结果显示,这个数据集训练出的模型答对了219道,反而不如稠密核心模型。这说明,预训练阶段打下扎实的知识基础和推理能力,比表面上模仿问答格式更重要。

六、评测本身也需要"清洗"

在整项研究中,还有一个容易被忽视却相当实际的贡献:研究团队发现现有的德语AI评测基准存在严重问题,并动手修复了它们。

现有的几个常用德语评测基准(ARC-Challenge、HellaSwag、LAMBADA、OpenBookQA),基本都是把英语原版直接机器翻译成德语的,翻译质量参差不齐,而且没有考虑到一个关键的语言差异:德语的词序和英语差别很大。

以LAMBADA为例,这个测试的玩法是:AI读完一段话,然后预测最后一个词。在英语里,句子通常以动词或名词结尾,预测"最后一个词"是一个自然的任务。但德语的语法要求动词往往放在句子末尾,直接翻译后,原来需要预测的那个词可能根本不在句子最后了。这就像把"我爱你"翻译成"我你爱",然后让AI猜最后一个字——答案从"你"变成了"爱",整个测试的意图都变了。

研究团队用一个当时最先进的多语言翻译模型(Tower+ 72B)对这些基准进行了重新翻译,翻译时提供完整的句子上下文而非逐句翻译,并人工检查和剔除了翻译失败或逻辑不通的例子。最终得到了一套更可靠的德语评测基准,并将这套基准作为开放资源发布,供整个德语NLP研究社区使用。

七、研究成果的最终形态

研究团队将他们的一系列德语模型统称为BOLDT,并向公众开放。其中有两个核心的基础模型:BOLDT-DC-350M和BOLDT-DC-1B,分别是3.5亿和10亿参数规模,都在2000亿词的稠密核心数据上训练完成,供希望复现研究结果的人使用。

此外,还有一个更完整的版本BOLDT-1B。这个模型不仅用了稠密核心的网页数据,还加入了约60亿词的德语新闻文章,这些新闻由他们团队自行开发的FUNDUS爬虫工具持续采集,时间跨度从2022年一直到2026年初,少量文章甚至可以追溯到1994年。BOLDT-1B的上下文窗口也从2048个词扩大到了4096个词,总训练量约为2300亿词,在六项德语基准测试上的综合表现达到44.52分,超过了多个体量相近甚至更大的多语言模型。所有模型均在HuggingFace平台上公开发布。

说到底,这项研究回答的是一个让很多AI研究者都纠结过的问题:当手头的好材料有限,但你又想训练出一个好模型,到底该怎么做?柏林洪堡大学的答案是:宁可少而精,反复钻研,也不要多而杂、浅尝辄止。而且这个结论在多个规模的模型上都成立,在实际应用场景中同样成立,甚至在把同样的数据读七遍之后依然成立。

这对AI领域的实践者来说是一个相当实用的信号。数据质量,而不仅仅是数据数量,才是关键。精心设计的筛选流程,哪怕会丢掉95%的原始数据,留下的那5%反而能训练出更强的模型。当然,这项研究本身也有局限:目前只在德语上做了系统性验证,只测试了10亿参数以内的模型,对更大规模的模型或其他语种是否完全适用,还需要进一步的研究来确认。

有兴趣深入了解这项研究细节的读者,可以通过arXiv编号2604.28075找到完整论文,作者来自柏林洪堡大学。

Q&A

Q1:训练德语AI为什么不能直接用更多数据,要专门筛选?

A:因为德语互联网上的文本虽然有几千亿词,但质量参差不齐,包含大量垃圾内容、广告文案、破碎的网页代码等。直接用这些数据训练,相当于让AI花大量时间学习无意义的内容,效率很低。柏林洪堡大学的研究表明,严格筛选后只剩原始数据量5%的精华内容,反复训练3到7遍,最终效果反而远超用全量低质量数据一遍读完的方案。

Q2:BOLDT模型和Llama、Gemma这些知名模型相比怎么样?

A:BOLDT系列模型在德语能力上的表现相当有竞争力。以10亿参数规模为例,BOLDT-DC-1B在六项德语基准测试上的综合得分为44.05分,超过了Gemma-3-1B(39.77分)和Llama-3.2-1B(37.90分),尽管后两者分别用了约20倍和90倍更多的训练数据。当然,这些知名模型是多语言通用模型,而BOLDT专注于德语,两者的适用场景有所不同。

Q3:现有德语AI评测基准有什么问题,柏林洪堡大学是怎么修复的?

A:现有德语评测基准大多是直接机器翻译英语版本而来,没有考虑德语词序与英语不同的问题。例如在LAMBADA测试中,英语句子末尾需要预测的词,翻译成德语后可能因为动词后置规则跑到了句子中间,导致测试逻辑被破坏。柏林洪堡大学用更先进的翻译模型对ARC-Challenge、HellaSwag、LAMBADA、OpenBookQA四个基准进行了重新翻译,翻译时提供完整句子语境,并人工剔除了逻辑不通的例子,将修复后的基准公开发布。