2025 年初,所有实验室的 LLM 生产栈看起来大致是这样的:

1.Pretraining (GPT-2/3 of ~2020)

预训练(约 2020 年的 GPT-2/3)

2.Supervised Finetuning (InstructGPT ~2022) and

监督微调(InstructGPT ~2022)和

Reinforcement Learning from Human Feedback (RLHF ~2022)

3.人类反馈强化学习(RLHF ~2022)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片