视觉Transformer精讲：如何深度优化ViT/DETR/SETR/CLIP等经典模型|原理|模态|深度思考模型|算法|视觉

在计算机视觉领域，Transformer通过自注意力机制，能够在单层网络内直接建模图像所有像素间的长程依赖关系，突破了传统CNN的局部感知局限，其在图像分类、目标检测、图像分割等任务中展现出显著优势，正在快速取代传统CNN，成为解决复杂视觉任务的首选方案。

ViT、DETR、SegFormer、BEVFormer、CLIP等模型受到广泛关注，并被实际落地应用，比如使用DETR开发工业质检系统，用CLIP搭建智能搜索平台，BEVFormer承担智能驾驶的感知任务等。

尽管上述算法大都已经开源，但在实际使用中仍然存在较大问题：

在不同的数据或者应用场景中，模型的性能差距较大，如何分析原因并制定优化策略；

不同的模型到底哪部分算子起到了提升精度的关键作用，以及为什么会提升；

不同模型的优劣势是什么，导致这些优劣势的原因又是什么。

想要系统化地掌握上述知识，我推荐深蓝学院的《视觉Transformer理论与实践》。课程系统解析Transformer核心原理及其在视觉和多模态领域的创新应用，涵盖ViT/DETR/SETR/CLIP等经典模型原理，帮助掌握视觉Transformer核心技术，实现从“局部感知到“全局理解”的能力跃迁，最终具备复现和优化先进模型的实践能力。并且对于探索端到端智驾(DriveVLM)、VLA机器人交互等前沿技术，也有非常大的帮助。

扫码添加，了解课程

备注【0507】，抢占学习名额

讲师介绍

利物浦大学长聘副教授

前商汤自动驾驶感知团队研发副总监

2017年博士毕业于中国科学院自动化研究所模式识别国家重点实验室，2017-2023担任商汤科技自动驾驶感知团队研发副总监，带领团队完成多个大项目交付。

目前发表SCI和EI学术论文近80篇，被引用量近4000次，其中CCFA类国际期刊和会议(T-PAMI、IJCV、TIP、CVPR、ICCV、ECCV、AAA1、MultiMedia等)近30篇。申请国内及国外专利申请30个以上。

现主要研究方向为图像/视频场景理解，Deepfake Detection，机器人-自动驾驶感知算法，以及语言-视觉联合学习等。现主持(PI)一项Alan Turing Institute项目基金，并联合主持(Co-1)一项欧盟Horizion project。

课程大纲

课程亮点

1.全栈式知识体系构建

从Transformer核心原理到CV经典任务(分类、检测、分割)再到多模态最前沿应用，覆盖ViT、DETR、SegFormer、CLIP、LLaVA等模型。