斯坦福大学 CME 295 “Transformer 与大语言模型”课程从 9 月 26 日到 12 月 10 日期间,课程分多讲依次展开。首先从 Transformer 基础讲起,包括 NLP 背景、分词、向量表示等基础概念以及 Transformer 架构。后续各讲分别深入探讨基于 Transformer 的模型与技巧、大规模语言模型的定义架构与相关策略、LLM 的训练、调优、推理、赋予能动性、评估等方面,最后一讲聚焦于结论与未来趋势。
涵盖:
Transformer:自注意力机制、架构、变体、优化技术(如稀疏注意力、低秩注意力、Flash Attention)
大语言模型 (LLM):提示 (prompting)、微调(SFT、LoRA)、偏好调优、优化技术(混合专家模型、知识蒸馏、量化)
应用:LLM 作为评判者、检索增强生成 (RAG)、智能体、推理模型(来自 DeepSeek-R1 的训练时与测试时缩放技术)
PPT下载:https://cme295.stanford.edu/syllabus/
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
热门跟贴