近年来,基于神经网络的机器学习模型已经在许多领域实现了应用,不断增长的网络参数量也使得模型的应用效果越来越好。然而,人们很快发现,更大的参数量必须辅以在大量标注数据上进行训练以防止模型的过拟合,而大规模数据的标注在现实中需要耗费大量的人力物力,同时,以前模型的网络结构也并不适合进行大规模数据的并行化训练,制约了神经网络模型的应用。而最近几年快速发展的预训练模型恰好弥补了这些缺陷。与传统神经网络的大量有标注数据训练不同,这些模型使用大量无标注数据预训练+少量有标注数据微调的训练范式,也可以在下游应用上达到很好的效果。同时,对于网络结构的改进使得模型在面对大规模数据训练时更加高效。在大数据时代,十分容易从互联网获得大量的无标注数据,使用它们进行预训练可以极大地降低因为数据造成的应用成本。而减少对有标注数据的依赖,也让预训练模型在一些标注较为缺乏的新兴应用领域有了施展身手的天地。尽管预训练模型诞生的时间并不长,但它们已经在许多场景中得到了应用,并且获得了令人欣喜的效果。预训练模型在大量无标注数据容易获得的机器学习任务上能得到成功应用的根本原因,就是充分有效地利用了这些数据。

打开网易新闻 查看精彩图片