2025 年初,所有实验室的 LLM 生产栈看起来大致是这样的:
1.Pretraining (GPT-2/3 of ~2020)
预训练(约 2020 年的 GPT-2/3)
2.Supervised Finetuning (InstructGPT ~2022) and
监督微调(InstructGPT ~2022)和
Reinforcement Learning from Human Feedback (RLHF ~2022)
3.人类反馈强化学习(RLHF ~2022)
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
热门跟贴