用Excel表格直观展现Transformer模型内部工作机制? 看科罗拉多大学博尔德分校的Tom Yeh教授制作的这个Excel,它模拟了Transformer模型的各个组成部分,包括编码器和解码器,以及其内部的多头自注意力机制和前馈神经网络。 从【视频】中可以看到,该Excel表格的操作者做了如下流程—— 1. 输入处理:操作者先是输入中文语句“小狗和小猫玩”,将其转换为数字ID(词嵌入)和位置编码,编码后的输入数据被送入Transformer的编码器部分。 2. 编码器:编码器每一层包括多头自注意力机制和前馈神经网络。我们可以详细查看每一层的矩阵运算过程,包括Query(Q)、Key(K)、Value(V)矩阵的计算、缩放点积注意力(Scaled Dot-Product Attention)计算,以及结果的归一化和残差连接(Residual Connection)。 3. 解码器:编码器运行完毕后,结果传递给解码器进行多头交叉注意力计算。解码器部分同样展示了Query、Key、Value矩阵的计算和多头交叉注意力的输出。 4. 前馈神经网络:多头自注意力机制的结果被送入前馈神经网络,每一编码器和解码器层中的前馈神经网络都包括线性变换和ReLU激活函数。 5. 输出预测:最终,解码器的输出通过线性变换和Softmax函数,得到输出概率分布。根据概率分布,选择概率最大的token作为预测结果。视频预测下一个词是“play”。 6. 循环预测:模型预测出“play”后,会将其加入到输入序列中,继续预测下一个词。 网友评论道:“感谢这个Excel表格,让我理解矩阵运算和各个模块之间的交互,以及Transformer模型的内部工作机制。” 感兴趣的小伙伴可以点击:
行业密探