13本七月在线内部电子书在文末,自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

题1、跨模态对齐方式

模态对齐(Cross-Modal Alignment)主要用于多模态任务,使不同模态的数据在共同的表征空间中具有一致性。主要方法包括:

  • 特征级对齐(Feature-Level Alignment)通过共享或对齐视觉和文本特征空间,如 CLIP 采用共享 Transformer 编码文本和图像并通过对比学习对齐。
  • 语义级对齐(Semantic-Level Alignment)通过对比损失、交叉注意力等方式使相同语义的图像-文本对靠近,例如 BLIP 使用文本-图像匹配(ITM)进行对齐。
  • 表示级对齐(Representation-Level Alignment)使用统一的潜在变量(Latent Variables)或共享 Transformer 进行表征,例如 Flamingo 通过门控机制融合文本和图像特征。
  • 生成式对齐(Generative Alignment)通过扩散模型或生成模型将文本映射到图像,如 Stable Diffusion、Deepseek-VL 通过视觉解码器学习对齐。

题2、Adapter和lora区别

Adapter 和 LoRA 都是参数高效微调(PEFT)方法,但有以下区别:

特性

Adapter

LoRA

结构

在 Transformer 层中插入小型可训练层

直接修改权重矩阵的低秩表示

参数开销

增加额外的参数

仅修改低秩矩阵,参数更少

计算开销

额外的前向传播计算

仅修改部分权重矩阵,计算开销低

适用场景

适用于多任务微调

适用于大模型的高效微调

代表模型

BERT-Adapter、GPT-Adapter

LLaMA-LoRA、Qwen-LoRA

问题3、Agent的基本原理

Agent 主要基于感知-决策-执行的循环流程,核心组成部分包括:

  • 感知(Perception):利用环境输入(文本、语音、图像等),通过 Transformer、大模型或 RL 进行理解。
  • 决策(Planning):基于规则、强化学习(RL)、LLM 规划任务流程,如 ReAct 结合 LLM 进行思考和行动。
  • 执行(Execution):调用 API、数据库、工具执行任务,例如 LangChain 的 Tool Use。
  • 反馈(Feedback):基于外部环境反馈调整策略,如 AutoGPT 结合 RLHF 进行优化。

题4、multi-agent的设计

Multi-Agent 设计涉及多个 Agent 之间的协作,主要模式有:

  • 任务分工(Task Allocation):不同 Agent 负责不同任务,如一个负责 NLP 处理,另一个负责知识检索。
  • 角色扮演(Role-based Agents):如 ChatDev 采用 CEO、PM、程序员等角色进行自动代码开发。
  • 博弈机制(Game Theory):如 Multi-Agent RL,多个 Agent 竞争或合作来优化整体任务,如 AlphaStar。
  • 层级架构(Hierarchical Agents):上层 Agent 负责高阶规划,下层 Agent 执行子任务,如 OpenAI’s Debate Model。

题5、MLA和MHA的差别和优势

MLA(Multi-Layer Attention)和 MHA(Multi-Head Attention)的主要区别如下:

特性

MLA(多层注意力)

MHA(多头注意力)

结构

叠加多层注意力

并行多头注意力

计算方式

每一层独立计算注意力

在同一层并行计算多个注意力头

信息融合

深层次信息融合

提供更丰富的特征表达

优势

更适合捕获长期依赖

计算效率高,适合 Transformer

应用场景

深度 RNN,LSTM 变种

Transformer, GPT 系列

问题6、GRPO的设计原理以及KL散度公式

GRPO(Guided Reward Policy Optimization)是强化学习中的一种优化方法,目的是通过奖励引导优化策略。核心思想:

  1. 引导式优化(Guided Optimization):在 PPO 基础上增加引导奖励。
  2. KL 散度控制:使用 KL 散度约束新策略与旧策略的变化范围。

KL 散度公式:

其中:

是新策略,

是旧策略。

题7、DPO的计算公式

DPO(Direct Preference Optimization)通过直接优化偏好分数来调整策略。核心公式:

其中:

是打分函数,

是偏好数据中的胜负对。

目标是最大化偏好数据的正确排序,提高 RLHF 训练的稳定性。

题8、RAG的优势和难点

优势:

  1. 可控性强:模型不会胡编乱造,基于真实检索数据回答。
  2. 知识更新方便:无需重新训练模型即可更新知识库。
  3. 降低参数需求:不需要超大模型就能提供丰富知识。
  4. 增强推理能力:结合知识检索和 LLM,提高回答准确性。

难点:

  1. 检索质量:向量召回和 BM25 召回的效果需要优化。
  2. 长文本处理:大规模知识库的召回效率和准确性。
  3. 查询理解:如何将用户查询映射到合理的检索请求。
  4. 融合机制:如何有效融合检索到的信息,避免冲突。
  5. 私有化部署:在封闭环境中运行 RAG 需要优化检索效率。

↓以下13本书电子版免费领,直接送↓

扫码回复【999】免费领13本电子书

或找七月在线其他老师领取