虾皮大模型算法一面面试6道|含解析|上下文|算法|虾皮|面试|预训练

13本七月在线内部电子书在文末，自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

问题1、你理解的agent是什么

agent通常指的是一个能够感知其环境并根据这些感知做出决策或采取行动的实体。agent可以是简单的规则基系统，也可以是复杂的智能体，如聊天机器人、游戏角色或自主驾驶汽车。agent的主要特点包括：

感知：收集环境信息（例如，通过传感器或数据输入）。

决策：基于感知的信息进行分析和判断。

行动：采取行动以实现特定目标。

问题2、decoder only的好处是什么

Decoder-only架构（如GPT系列模型）主要用于生成任务，其优点包括：

问题3、为什么要rlhf，为什么要对齐

RLHF的目的在于通过人类反馈优化模型的行为，使其更符合用户期望。主要原因包括：

问题4、llama3怎么训练的

关于LLaMA3的具体训练过程目前可能还没有公开的详细文档，但一般而言，这类模型的训练通常包括：

问题5、dpo原理，为什么要用dpo，与ppo改进

DPO（Direct Preference Optimization）是一种强化学习方法，用于优化模型的输出以更直接地符合人类偏好。与PPO（Proximal Policy Optimization）**相比，DPO的优势包括：

问题6、请描述下sft过程的细节

SFT（Supervised Fine-Tuning）的过程通常包括以下几个步骤：

数据准备：收集高质量的标注数据集，确保数据能够代表目标任务的特征和分布。
初始模型加载：使用预训练的模型作为基础，这通常是一个大型的预训练语言模型。
模型训练：
- 输入输出对：将标注数据转化为输入和期望输出对，以便模型进行学习。
- 损失函数计算：使用交叉熵等损失函数评估模型输出与实际标注之间的差距。
- 反向传播：根据损失函数的反馈更新模型参数，以最小化输出与实际标注之间的误差。
验证与评估：在验证集上评估模型的性能，调整超参数以提高效果。
迭代优化：根据评估结果进行多轮迭代，直到模型在特定任务上达到预期效果。
↓以下13本书电子版免费领，直接送↓

打开网易新闻查看精彩图片

打开网易新闻查看精彩图片

打开网易新闻查看精彩图片

扫码回复【999】免费领13本电子书
（或找七月在线其他老师领取）