网易互娱AI算法一面面试题9道|含解析|ai算法|key|序列|面试题

13本七月在线内部电子书在文末，自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

问题1、用了哪些peft微调？介绍一下

PEFT（Parameter-Efficient Fine-Tuning）是一种只对模型的少量参数进行微调的技术，通常用于减少计算成本和存储需求。常见的 PEFT 技术包括：

问题2、有没有了解过 Qlora？他具体是怎么量化的？

QLoRA 是一种结合量化技术和 LoRA 技术的微调方法，专门为大模型设计的高效微调方案。QLoRA 的核心思想是通过量化大模型的权重来降低内存和计算成本，同时保持模型性能。它具体的量化过程是：

4-bit 量化：QLoRA 将大模型的权重矩阵量化为 4-bit，显著减少了内存占用。量化后的矩阵表示为较低精度的权重值，加快推理速度。
低秩微调 (LoRA)：在 4-bit 量化基础上引入低秩 LoRA 微调权重矩阵，利用小规模的低秩矩阵来捕捉任务特定的权重调整。
基于量化的近似算法：在训练中使用近似算法来解决由于量化带来的误差，保持模型性能。QLoRA 通过结合量化和参数高效微调，能够在大幅降低资源消耗的前提下，实现与全精度微调近似的效果。

问题3、PPO 和 DPO 的区别讲一下？了解新的一些 RLHF 吗？KTO 啥的

PPO（Proximal Policy Optimization）是一种强化学习算法，用于平衡探索和利用，通过限制更新幅度来避免过大的策略更新，确保训练稳定性。
DPO（Direct Preference Optimization）是强化学习用于模型对齐的一种新方法。它的核心思想是直接对齐模型与人类偏好的输出，而不需要通过计算奖励函数或策略更新，只通过对偏好比较的数据进行直接优化。

主要区别：

KTO 是一种新的 RLHF（Reinforcement Learning from Human Feedback）方法，核心思想是引入人类反馈作为奖励信号来优化模型。相比于传统的 RLHF，KTO 更加关注通过知识指导来提升模型的行为生成。

问题4、transformer 的位置编码是怎么样的形式？还了解哪些新的位置编码？

Transformer 的原始位置编码是基于正弦和余弦函数的，公式为：

其中， pos 是位置， i 是维度索引， d 是总的向量维度。这样可以让模型识别输入序列中各个位置之间的相对关系。

新的位置编码：

问题5、能介绍一下 self attention 吗？为什么要除以根号 dk？

Self-Attention 是 Transformer 的核心机制，它允许模型在处理输入时根据输入序列中的所有其他元素来调整每个元素的表示。它的主要流程包括：

这种机制使得每个 token 可以灵活地关注序列中的其他 token，有效捕捉长距离依赖关系。

在 Self-Attention 中，Query 和 Key 的点积会随着维度增加而变大，可能导致 softmax 之后的梯度消失或爆炸。为了避免这种现象，使用了进行缩放，是 Query 和 Key 向量的维度，通过缩放保证点积结果不会过大，保持稳定性。

问题6、MHA MQA GQA 了解吗？讲一下

MHA（Multi-Head Attention）：多头注意力机制，将输入分成多个头，每个头都分别计算一次注意力，最后将这些头的输出拼接起来。这样可以让模型从不同的角度处理信息。

MQA（Multi-Query Attention）：是对 MHA 的一种优化，它将 Key 和 Value 共享，但对 Query 使用多个头。这样可以在减少计算量的同时保持模型的表达能力。

GQA（Grouped Query Attention）：是一种通过分组的方式来减少计算开销的注意力机制，通常将 Query 进行分组处理，但每个组共享相同的 Key 和 Value。

问题7、你知道 transformer 原始的 FFN 是什么结构吗？

Transformer 中的 FFN（Feed-Forward Network）是每个注意力层后的全连接网络，它由两个线性变换和一个非线性激活函数（通常是 ReLU）组成。其结构为：

通过这种结构，模型可以对每个位置的特征进行进一步的非线性映射。

问题8、你知道 transformer 的 Norm 怎么做的吗？

Transformer 中的 Norm 通常指的是 Layer Normalization。每一层的输入和输出都会经过一个 LayerNorm 层，LayerNorm 会对输入的每一层特征进行归一化处理，保持模型训练的稳定性。LayerNorm 的公式为：

问题9、现在大模型一般用什么 Norm？

在大模型中，常用的 Norm 包括：