13本七月在线内部电子书在文末,自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

1、描述下Llama2架构。

Llama 2 是一种 Decoder-only Transformer 模型,旨在执行生成式任务。 其架构和标准的 Transformer 类似,使用自注意力机制来处理输入序列。 Llama 2 通过堆叠多层 Transformer 块来生成文本,每个块由多头自注意力机制和前馈神经网络组成。 它不再使用 Encoder-Decoder 结构,而是单独依靠 Decoder 来生成下一步的输出。

2.、Llama2 transformer block里做了哪些改变?

在结构上,与Transformer模型相比,LLaMA2的主要变化是将其中的层标准化(LayerNorm)替换为了均方根标准化(RMSNorm),多头注意力(Multi-Head Attention)换成了分组查询注意力(GQA,在LLaMA中则是多查询注意力MQA),并将位置编码(Positional Encoding)替换为了旋转嵌入(Rotary Position Embedding,RoPE)。

3、为什么用RMSNorm不用LayerNorm?

RMSNorm 是一种替代 LayerNorm 的归一化技术,它计算的是输入的均方根值而非均值和方差。其主要优势在于计算简单,减少了参数量,并且对于大规模模型来说,更容易保持训练的稳定性。这种方式特别适合 Decoder-only 架构,能够在不牺牲性能的情况下加速计算。

4、为什么用RoPE不用绝对位置编码,RoPE能表示绝对位置信息吗?

RoPE(旋转位置编码)是一种相对位置编码方式,通过引入旋转变换将序列中的相对位置信息嵌入到每个位置向量中。相对于绝对位置编码,RoPE 更好地表示序列中的相对关系,有助于模型理解不同位置之间的依赖性。在处理长序列时,RoPE 保持了对位置信息的保真度,但它并不显式地表示绝对位置信息,而是通过相对偏移的方式对位置进行建模。

5、为什么现在主流都用Decoder-only而不是Encoder-decoder?

Decoder-only 模型更适合生成式任务,因为它只需要生成下一步的输出,而不需要处理输入-输出对之间的编码转换。Encoder-Decoder 结构更适合需要输入和输出之间有显式映射关系的任务(如机器翻译)。对于对话生成、文本生成等任务,Decoder-only 更具效率,而且其架构更简单、训练和推理的开销更低。

6、LoRA原理,LoRA在用的时候可能会有哪些坑?

LoRA(Low-Rank Adaptation)通过在预训练模型的权重上插入低秩矩阵来减少参数量和计算量,特别适用于模型微调。LoRA 允许在不改变原始模型参数的情况下调整部分权重,进而适应特定任务需求。

可能的坑包括:

  • 低秩矩阵可能不足以捕捉特定任务的复杂性,导致性能下降。

  • 如果任务本身过于复杂或具有较多的高维度信息,LoRA 的压缩能力可能不足以达到预期效果。

  • LoRA 的优化和调整需要一定的经验,否则可能无法获得最佳性能。

7、QLoRA原理,QLoRA里用的是哪种量化?

QLoRA 是基于量化版本的 LoRA,旨在将模型量化为低精度表示(如 4-bit、8-bit 等)以减少计算开销。QLoRA 在保留原始模型性能的同时,通过量化和低秩适配降低存储和计算成本。

QLoRA 使用的是 4-bit 量化,这种量化方式可以显著减少内存需求,同时保留模型的有效性。在实践中,量化可能会导致小幅度的精度损失,但通过精心设计和微调,QLoRA 能够在性能和效率之间找到平衡。

↓以下13本书电子版免费领,直接送↓

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

扫码回复【999】免费领13本电子书

(或找七月在线其他老师领取)