data2vec 2.0 |自监督算法还能提高到哪里|data|vec|自监督算法|计算机视觉|速度|预训练

11 个月前，Meta 发布了 data2vec 成为了多模态模型领域的一个里程碑。前几日又发布了高效率的自我监督学习 data2vec 2.0。

MetaAI 正在建立一个更通用和有效的自我监督算法，可以使用一个单一的学习目标，从不同的模式进行学习的旅程。这种更有效地学习的能力对于处理视频模式很重要，因为这需要大量的计算工作完成处理任务。

data2vec 2.0 这样更有效的自我监督学习算法将使机器能够深入理解极其复杂的数据，例如整部电影的内容。

data2vec 2.0 为什么更快

自监督学习的基本思想是让机器通过观察世界来学习图像、语音和文本的结构。这一领域的进展导致了语音(如 wave2vec 2.0)、计算机视觉(如 masked autoencoders)和自然语言处理(如 BERT)方面的许多突破。

不过现代系统在计算上的要求很高，训练非常大的模型需要许多 GPU。

data2vec 2.0 可以单独对文本、语音或图像进行培训。

与最初的 data2vec 算法类似，data2vec 2.0 预测了数据的上下文表示(或神经网络的层次) ，而不是图像的像素、文本段落的单词或语音的声音。

与大多数其他算法不同，这些所谓的目标表示是上下文化的，这意味着它们将整个训练示例考虑在内。例如，单词 bank 的意思是基于该词出现的整个句子，因此更容易表示该词的正确含义(“金融机构”或“河边的土地”)。

上下文化的目标会导致更丰富的学习任务，使data2vec 2.0的学习速度超过其他算法。

以下几种方式提高了原始 data2vec 算法的效率:

首先，获取为特定训练示例构建的目标表示，并将它们重用于 masked versions(其中隐藏了训练实例的不同随机部分)。

将每个版本提供给 student model，student model 为不同的 masked versions 预测相同的上下文化的目标表示。这有效地分摊了创建目标表示所需的计算工作。

其次，类似于 masked autoencoders，不对训练实例中空白的部分运行 student encoder network（在我们的例子中大约是图像的80%），从而节省了显着的计算周期。

最后，我们使用了一个更有效的 decoder model，它不依赖于 Transformer networks，而是依赖于一个多层卷积网络。

将 data2vec 2.0训练到与同一硬件上流行的现有算法相同的精度时，相对训练时间得到改善。

刷新 SOTA，展示算法优势

为了更好地理解 data2vec 2.0 比它的前辈和其他算法高效多少，对其在计算机视觉、语音和文本任务上进行了广泛使用的基准测试。看看最终的准确性和预训练模型所花的时间。实验在相同的硬件上（ GPU 的数量等）测量了算法的速度。

计算机视觉

对于计算机视觉，在标准 ImageNet-1K 图像分类基准上评估了 data2vec 2.0，使它学会了表示图像。

Data2vec 2.0 可以等同于 masked autoencoders (MAE) 的准确性，但是速度要快 16 倍（在同类环境中以挂钟时间衡量）。如果给算法更多的时间，它可以达到更高的精度，同时仍然比 MAE 快。

语音

对于语音，在 LibriLanguage 语音识别基准上进行了测试，它的准确性是 wave2vec 2.0 的 11 倍以上。

data2vec 2.0 在语音任务上的表现

图表显示了在 LibriLanguage 上预训练模型的速度与语音识别单词错误率，在 10 小时的 Librilight 数据上进行微调，然后在 dev-other 上进行评估。

NLP

对于自然语言处理 (NLP) ，在流行的通用语言理解评估 (GLUE) 基准上评估了 data2vec 2.0，在一半的训练时间内，它达到了与 BERT 的重新实现 RoBERTa 相同的精度。

data2vec 2.0 在文本任务上的表现

上图显示了在使用原始 BERT 设置时 GLUE 基准上自然语言理解的准确性。

开源共享

data2vec 2.0 共享了其代码和预训练模型。

GitHub 上地址：
https://github.com/facebookresearch/fairseq/tree/master/examples/data2vec

人工智能最近的许多突破都是通过自我监督学习来实现的，自我监督学习可以使机器不依赖标记数据进行学习。这个活跃的领域是机器学习向处理高维数据信息的必经过程。

data2vec 2.0 是探索自监督学习的努力尝试，未来从无标注的数据中处理有效信息依旧是很重要的课题。期待 Meta AI 继续突破瓶颈和替补空白。

[1] https://ai.facebook.com/blog/ai-self-supervised-learning-data2vec/?utm_source=twitter&utm_medium=organic_social&utm_id=blog&utm_content=technical_deep_dive

data2vec 2.0 |自监督算法还能提高到哪里

热搜

热门跟贴

热搜

热门跟贴

相关推荐

为什么有些男生速度太快

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

中国不能放弃基础模型和预训练 科技领域我们总能后来居上

不是你有这速度，你还要啥车呀

MIT开发新方法，无需从头训练机器人即可执行复杂任务

中国不能放弃基础模型和预训练，李开复分享思考

公开数据库NHANES数据介绍及选题

这就是女人速度

AI也会“喵喵叫”：MIT团队让机器学会模仿声音

NC：新型热界面材料更好地冷却芯片

迪士尼“饼饼”又被游客拍头，工作人员强势“回击”

FP8训练新范式：减少40%显存占用，训练速度提高1.4倍

理想要做智驾圈的DeepSeek？联合北大浙大，四篇论文入选AI顶会CVPR

美暂缓对符合美墨加协定的墨加商品征税:直至4月2日

国家发改委：双一流高校本科再扩招2万人

图灵奖颁给强化学习师徒，一造船改行写代码，一个痛批AI投身AGI

交易幕后：拉里·芬克和李嘉诚如何闪电达成228亿美元收购案

DeepSeek的MLA，任意大模型都能轻松迁移了

线性扩散模型LiT，极简线性注意力助力扩散模型AIPC时代端侧部署

乌军在库尔斯克聚餐庆祝胜利 各种美食摆的满满当当

中国不能放弃基础模型和预训练科技领域我们总能后来居上

乌军在库尔斯克聚餐庆祝胜利各种美食摆的满满当当