作者:小森(南京大学 CS硕士在读)

部门与岗位:Flow - 豆包团队 - 大模型

一面

  1. 自我介绍,问实习和论文

  2. 看你实习微调过 Qwen2 ,说说 Qwen2 的模型结构吧,Qwen2 相比 Qwen1 做了哪些改进

  3. 为什么现在 Decoder-only 成为大模型的主流架构,相比于 Encoder-Decoder 的架构好在哪里

  4. 讲一下 RoPE 吧,目前常用的位置编码还有哪些,RoPE 有什么优点(相对位置、外推性……),如何进一步外推

  5. 为什么有了 SFT 之后还需要 RLHF

  6. PPO 和 DPO 的主要思想是什么,DPO 相比 PPO 的 RLHF 做了哪些改进,除此之外还知道哪些 RL 算法,知道 DeepSeek 的 GRPO 吗

  7. 代码: 23. 合并 K 个升序链表

一面整体来说还是比较基础的,都是一些八股的知识,没有考什么自由发挥的题。不过力扣还是难的,出了一道 hard

二面

  1. 自我介绍,选一个做的好的实习或者论文讲一下,这里问的比较细,动机是什么,为什么用当前的方案

  2. 了解 KV cache 吗, GQA 的思想是什么

  3. 讲一下 FlashAttention 的思想和做法

  4. 除了刚刚说到的这些,还了解过哪些模型训练推理优化的方法( DeepSpeed ,数据并行,张量并行,流水线并行……

  5. 开放题:如果要提升大模型的多轮对话能力,你有哪些可以改进的点

  6. 代码:刚刚提到了 GQA,写一下 GQA 吧

二面更偏底层优化,没有过多的问一些大模型结构方面的东西,应该是考虑到一面都问过了。整体的考察比较灵活一些

三面

  1. 自我介绍,过实习和论文,这里面试官会穿插问一些八股的知识,比如了解 Qwen 的结构吗,微调的数据配比是怎样的

  2. 大模型的灾难性遗忘问题怎么解决

  3. 了解 RAG 吗,GraphRAG 的做法

  4. 场景题:目前有一些专业领域知识,比如医疗知识或者法律条文,准备做一个智能助手,要让你搭建一个 RAG 链路,会怎么做

  5. 开放题:用过豆包吗,觉得目前豆包还存在什么问题

  6. 代码: 416. 分割等和子集

三面一些八股还是问的比较常规的,但是自由发挥的题目有点多,感觉有点难答,不过好在面试官会进行启发,抛出一些小问题来引导回答

总结

整体来说面试还是有一些难度的,还是要好好准备