13本七月在线内部电子书在文末,自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

1、用了哪些peft微调?介绍一下

PEFT(Parameter-Efficient Fine-Tuning)是一种只对模型的少量参数进行微调的技术,通常用于减少计算成本和存储需求。常见的 PEFT 技术包括:

  • LoRA(Low-Rank Adaptation):通过将权重矩阵分解成两个低秩矩阵,仅对分解后的部分进行训练,减少需要更新的参数数量。

  • Adapter:在 transformer 层之间插入小的、独立的子网络,只微调这些子网络而不改变主模型的参数。

  • BitFit:仅对模型的偏置参数进行微调,适用于资源有限的场景。

  • Prompt Tuning:通过优化输入序列前的提示(prompt)来调整模型输出,而无需修改模型的权重。

  • Prefix Tuning:在输入之前添加可训练的前缀,类似于 Prompt Tuning,但更加灵活。

2、有没有了解过 Qlora?他具体是怎么量化的?

QLoRA 是一种结合量化技术和 LoRA 技术的微调方法,专门为大模型设计的高效微调方案。QLoRA 的核心思想是通过量化大模型的权重来降低内存和计算成本,同时保持模型性能。它具体的量化过程是:

  • 4-bit 量化:QLoRA 将大模型的权重矩阵量化为 4-bit,显著减少了内存占用。量化后的矩阵表示为较低精度的权重值,加快推理速度。

  • 低秩微调 (LoRA):在 4-bit 量化基础上引入低秩 LoRA 微调权重矩阵,利用小规模的低秩矩阵来捕捉任务特定的权重调整。

  • 基于量化的近似算法:在训练中使用近似算法来解决由于量化带来的误差,保持模型性能。QLoRA 通过结合量化和参数高效微调,能够在大幅降低资源消耗的前提下,实现与全精度微调近似的效果。

3、PPO 和 DPO 的区别讲一下?了解新的一些 RLHF 吗?KTO 啥的

  • PPO(Proximal Policy Optimization) 是一种强化学习算法,用于平衡探索和利用,通过限制更新幅度来避免过大的策略更新,确保训练稳定性。

  • DPO(Direct Preference Optimization) 是强化学习用于模型对齐的一种新方法。它的核心思想是直接对齐模型与人类偏好的输出,而不需要通过计算奖励函数或策略更新,只通过对偏好比较的数据进行直接优化。

主要区别:

  • PPO 强调使用奖励函数进行策略的迭代优化,而 DPO 则直接在偏好数据上进行优化,更关注模型输出与人类偏好的一致性。

  • DPO 更加高效,因为它避免了复杂的策略更新和计算奖励,直接根据反馈数据进行调整。

KTO 是一种新的 RLHF(Reinforcement Learning from Human Feedback)方法,核心思想是引入人类反馈作为奖励信号来优化模型。相比于传统的 RLHF,KTO 更加关注通过知识指导来提升模型的行为生成。

4、transformer 的位置编码是怎么样的形式?还了解哪些新的位置编码?

Transformer 的原始位置编码是基于正弦和余弦函数的,公式为:

  • Positional Encoding:在输入中加入固定的位置信息,使模型能够区分不同位置的词语。它的形式为:

打开网易新闻 查看精彩图片

其中, pos 是位置, i 是维度索引, d 是总的向量维度。 这样可以让模型识别输入序列中各个位置之间的相对关系。

新的位置编码:

  • RoPE(Rotary Position Embedding):通过旋转位置嵌入实现相对位置编码,这样可以更好地处理长序列任务。

  • ALiBi(Attention with Linear Biases):通过在注意力得分中引入线性偏置,确保模型能够适应更长的输入序列。

  • T5 的 Relative Position Embedding:相对位置编码,表示两个 token 之间的距离,避免了序列长度的限制。

5、能介绍一下 self attention 吗?为什么要除以根号 dk?

Self-Attention 是 Transformer 的核心机制,它允许模型在处理输入时根据输入序列中的所有其他元素来调整每个元素的表示。它的主要流程包括:

  • 计算输入序列的 Query、Key 和 Value 向量。

  • 利用 Query 和 Key 之间的点积计算注意力得分,再通过 softmax 转换成权重。

  • 这些权重会与对应的 Value 相乘,得到最终的注意力表示。

这种机制使得每个 token 可以灵活地关注序列中的其他 token,有效捕捉长距离依赖关系。

在 Self-Attention 中,Query 和 Key 的点积会随着维度增加而变大,可能导致 softmax 之后的梯度消失或爆炸。为了避免这种现象,使用了 进行缩放, 是 Query 和 Key 向量的维度,通过缩放保证点积结果不会过大,保持稳定性。

6、MHA MQA GQA 了解吗?讲一下

MHA(Multi-Head Attention):多头注意力机制,将输入分成多个头,每个头都分别计算一次注意力,最后将这些头的输出拼接起来。这样可以让模型从不同的角度处理信息。

MQA(Multi-Query Attention):是对 MHA 的一种优化,它将 Key 和 Value 共享,但对 Query 使用多个头。这样可以在减少计算量的同时保持模型的表达能力。

GQA(Grouped Query Attention):是一种通过分组的方式来减少计算开销的注意力机制,通常将 Query 进行分组处理,但每个组共享相同的 Key 和 Value。

7、你知道 transformer 原始的 FFN 是什么结构吗?

Transformer 中的 FFN(Feed-Forward Network)是每个注意力层后的全连接网络,它由两个线性变换和一个非线性激活函数(通常是 ReLU)组成。其结构为:

通过这种结构,模型可以对每个位置的特征进行进一步的非线性映射。

8、你知道 transformer 的 Norm 怎么做的吗?

Transformer 中的 Norm 通常指的是 Layer Normalization。每一层的输入和输出都会经过一个 LayerNorm 层,LayerNorm 会对输入的每一层特征进行归一化处理,保持模型训练的稳定性。LayerNorm 的公式为:

9、现在大模型一般用什么 Norm?

在大模型中,常用的 Norm 包括:

  • LayerNorm:在 Transformer 中广泛应用。

  • RMSNorm:与 LayerNorm 类似,但只计算均值,没有减去均值的操作,速度更快,适合大模型。

  • BatchNorm:在一些特殊场景下也可能用到,虽然在 Transformer 中不如 LayerNorm 常见。

  • ↓以下13本书电子版免费领,直接送↓

    打开网易新闻 查看精彩图片

    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片

    扫码回复【999】免费领13本电子书

    (或找七月在线其他老师领取)