选模型不是挑名字,是挑数据结构。

DNN、CNN、RNN、注意力机制,这四个名字背后藏着一条清晰的进化线:图像需要空间模式,序列需要顺序记忆,现代AI需要可扩展的注意力机制。架构从来不是偏好问题,是对问题形状的回应。

打开网易新闻 查看精彩图片

核心逻辑:数据决定架构

深度学习的架构选择围绕一个根本问题:数据有什么结构?

DNN学习分层表示,通用但粗糙。CNN专为空间数据设计,卷积核扫描图像区域,捕捉局部视觉模式。RNN处理序列,一步步推进,用隐藏状态记住时间线上的信息。注意力机制则用注意力直接比较任意两个元素的关系,灵活且可扩展。

目标始终没变:从数据中学到有用的表示。变的是数据的形态,以及捕捉这种形态的工具。

一张简单的选择地图

实际选型时可以这样判断:

输入是表格数据或通用特征向量?从DNN开始。输入有空间结构?考虑CNN。输入是序列或时间序列?RNN或注意力机制。需要捕捉长距离关系?注意力机制。任务涉及现代语言模型或多模态系统?注意力机制通常是基线。

理解这张地图的意义在于:先选对模型家族,再调细节。

三个具体场景

图像分类需要检测局部视觉模式,CNN的卷积核天然适合扫描空间区域。时间序列预测需要理解时间顺序,RNN就是为这种序列流设计的。文本生成需要连接长距离的词与词,注意力机制可以直接比较任意两个token,因此成为主流。

不同的数据,不同的结构,不同的架构。

四者对比:关键差异在假设

DNN是通用分层模型,处理固定大小的特征向量,不显式建模空间或时间。CNN专为空间数据设计,用卷积核高效捕捉局部模式。RNN专为序列设计,逐步处理,跨时间保持隐藏状态。注意力机制围绕注意力构建,直接比较元素,在现代语言和多模态系统中扩展性最好。

关键差异不在层类型,而在每种模型对数据结构的假设。

视觉架构的进化线

CNN在计算机视觉中的主导地位,可以通过一系列里程碑模型理解:LeNet → AlexNet → VGGNet → GoogLeNet → ResNet。每个模型解决不同问题——LeNet证明CNN可行,AlexNet证明可扩展到大规模图像识别,VGGNet展示简单深度的力量,GoogLeNet改进效率,ResNet解决深层网络的训练难题。

这条线说明:架构进化不是替换,是针对性优化。理解数据结构,才能理解为什么某个架构在特定时代成为最优解。