金融界 2024 年 12 月 5 日消息,国家知识产权局信息显示,京东方科技集团股份有限公司、北京京东方技术开发有限公司申请一项名为“Transformer 网络模型的训练方法、装置、电子设备及介质”的专利,公开号 CN 119067169 A,申请日期为 2023 年 5 月。

专利摘要显示,本发明提供一种 Transformer 网络模型的训练方法、装置、电子设备及介质,该训练方法包括:获取原始 Transformer 网络模型;采用第一训练数据集对所述原始 Transformer 网络模型进行训练,得到教师模型;对所述教师模型进行剪枝,得到学生模型;采用所述教师模型和第二训练数据集对所述学生模型进行训练,其中,所述采用所述教师模型和第二训练数据集对所述学生模型进行训练包括:对所述教师模型的中间层和最后输出层的输出进行蒸馏并根据所述中间层和最后输出层的蒸馏损失确定训练所述学生模型过程中使用的损失。本发明在降低 Transformer 模型参数量和计算复杂度的同时,能够减小模型的精度损失。

本文源自:金融界

作者:情报员