斯坦福大学《Transformer 与大语言模型》公开课，PPT

Ai学习的老章

2025-10-20 17:46 ·北京 ·优质互联网领域创作者

斯坦福大学 CME 295 “Transformer 与大语言模型”课程从 9 月 26 日到 12 月 10 日期间，课程分多讲依次展开。首先从 Transformer 基础讲起，包括 NLP 背景、分词、向量表示等基础概念以及 Transformer 架构。后续各讲分别深入探讨基于 Transformer 的模型与技巧、大规模语言模型的定义架构与相关策略、LLM 的训练、调优、推理、赋予能动性、评估等方面，最后一讲聚焦于结论与未来趋势。
涵盖：
Transformer：自注意力机制、架构、变体、优化技术（如稀疏注意力、低秩注意力、Flash Attention）
大语言模型 (LLM)：提示 (prompting)、微调（SFT、LoRA）、偏好调优、优化技术（混合专家模型、知识蒸馏、量化）
应用：LLM 作为评判者、检索增强生成 (RAG)、智能体、推理模型（来自 DeepSeek-R1 的训练时与测试时缩放技术）

PPT下载：https://cme295.stanford.edu/syllabus/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴