打开网易新闻 查看精彩图片

哈喽,大家好,今天就带大家揭秘大模型的“成长密码”——从只会“猜单词”的“书呆子”到懂你心意的“智能伙伴”,它到底经历了怎样的双重训练?

但很少有人知道,这些“数字大脑”并非天生智能,而是像人类成长一样,经历了“基础教育”与“社会打磨”两大阶段。

从海量数据中“学知识”,到在人类引导下“守规矩”,大模型的训练过程藏着AI能力的核心密码。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

数据海洋里的“知识打底”

如果说大模型的成长是盖房子,预训练就是筑牢地基。

这一阶段的核心,是让模型在海量数据中“博闻强识”,建立对语言规律的直觉。与传统认知不同,现代大模型的预训练早已超越单纯的“预测下一个词”,而是构建多维度知识体系。

训练数据的规模和质量直接决定模型的基础能力。

据人民论坛网发布的研究显示,大模型“涌现能力”的出现,必须以足够量级的训练数据为前提,当模型参数达到千亿级、训练数据突破万亿token时,就会出现类似“开窍”的质变,比如GPT-3在未专门训练的情况下,突然具备两位数乘法能力。

打开网易新闻 查看精彩图片

一本正经地编造虚假信息。更值得关注的是,若训练数据存在偏见,模型还会复刻这些问题。

打开网易新闻 查看精彩图片

预训练后的模型就像“满腹经纶却不懂社交的书呆子”,表达生硬、逻辑跳跃,甚至无法识别敏感问题。

打开网易新闻 查看精彩图片

人类引导下的“行为校准”

预训练结束后,模型虽具备基础能力,却难以直接服务人类。

后训练阶段的核心,是通过技术手段与人类反馈,让模型“学会说人话、守规矩”,这也是大模型从“工具”到“伙伴”的关键一跃。

后训练的核心技术是RLHF(基于人类反馈的强化学习),这一技术被ChatGPT成功应用并普及。

打开网易新闻 查看精彩图片

光明网报道显示RLHF分为三个步骤:首先由人类训练师扮演用户与AI,生成高质量对话样本进行监督微调。

再由训练师对模型的多个回复打分,训练奖励模型,最后用强化学习算法让模型持续优化,贴合人类偏好。

打开网易新闻 查看精彩图片

训练师在这一阶段扮演着“AI导师”的关键角色。随着大模型产业爆发,人工智能训练师成为热门职业,招聘需求同比增长56%,薪资区间在6000-19000元,毕业生简历常被企业“秒抢”。

他们的工作远比“标注数据”复杂,在医疗领域,高年资医生需亲自标注病理切片数据,避免模型误诊。

在客服场景,训练师要输入上千条相似问句,让模型精准理解用户需求。

在伦理层面,还要通过标注敏感内容、设定拒答规则,引导模型树立正确价值观。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

算力与语料的双重保障

大模型的训练之路,离不开算力与语料的硬核支撑。

算力方面大模型训练堪称“电力巨兽”。OECD与IEEE联合报告显示,GPT-4单次训练耗电达2.4亿千瓦时,相当于3000户家庭一年的用电量,而推理阶段的能耗更是训练阶段的10倍。

打开网易新闻 查看精彩图片