Meta联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜|clip|元数据|华盛顿大学|字符串|实验|算法|纽约大学

自 2021 年诞生，CLIP 已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信 CLIP 的创新和成功来自其高质量数据（WIT400M），而非模型或者损失函数本身。虽然 3 年来 CLIP 有大量的后续研究，但并未有研究通过对 CLIP 进行严格的消融实验来了解数据、模型和训练的关系。

CLIP 原文仅有简短的数据处理描述，而后续工作依靠已经训练好的 CLIP 来重新过滤数据去训练 CLIP（学生）模型。更广泛地说，虽然目前的开源着重强调已训练模型权重的公开，而训练数据以及如何从低质量数据获得高质量数据的技巧的公开度却往往并不那么高。

本文带你揭开 CLIP 的数据质量之谜，为开源社区带来元数据导向的 CLIP 预训练（MetaCLIP)。

论文标题： Demystifying CLIP Data 论文链接： https://arxiv.org/abs/2309.16671 代码链接： https://github.com/facebookresearch/MetaCLIP

一、MetaCLIP数据质量

MetaCLIP 根据 CLIP 原文对数据处理的描述，提出可扩展到整个 CommonCrawl 上的数据算法。该算法接受原始互联网数据分布，产生在元数据上平衡的高质量训练数据分布。

MetaCLIP 产生的数据质量源自两个部分：

（1）通过元数据字符串匹配来抓取高质量人类监督文本；

（2）通过平衡数据在元数据上的分布来最大限度保留长尾数据的信号、弱化噪声以及头部分布的冗余信息。MetaCLIP 的元数据来自 50 万个 WordNet 和维基百科的视觉概念（visual concept），它们使被匹配的 alt 文本包含超越人类平均认知水平的监督质量（superhuman level supervision）。

我们的实验严格遵循 CLIP 设定来控制研究数据分布对结果的影响。整个数据提取，训练无需已训练 CLIP 来过滤数据以及潜在未知的来自 OpenAI CLIP 的数据偏见。

相反的是，MetaCLIP 数据算法同时输出训练数据分布。这使得训练数据更加透明，以方便调试模型。MetaCLIP 在 400M 训练数据上达到 ViT-B 70.8% 的零样本 ImageNet 分类精度；使用 1B 训练数据上达到 72.4%；在 2.5B 训练数据上使用 ViT-bigG 模型达到 82.1%，而整个模型和训练参数并未进行任何更改（比如学习率或批样本量）。

消融实验表明：字符串匹配（MetaCLIP w/o bal. （400M)）和平衡分布（MetaCLIP（400M））对 MetaCLIP 的数据质量产生重大贡献。

二、CLIP数据算法介绍

本文正式提出CLIP 数据算法，来简化和产生高质量的训练数据。

该方法大致分为：创建元数据，提出数据算法，提高数据质量及输出训练数据等四个步骤。

具体方法见下：

（1）实现了 CLIP 数据的相关描述，包括如何创建元数据；

（2）提出如下数据算法：第一部分为元数据字符串匹配，第二部分为平衡数据分布。该算法简洁可扩展，本文已证明可在所有 CommonCrawl 300+B 级图片样本并行运行；

（3）可植入已有数据流水线或者数据加载器（data loader）来提高数据质量；

（4）输出训练数据在元数据上的训练分布使得训练数据更透明。

该算法的 python 代码如下：

MetaCLIP 的元数据来自 WordNet 和 Wikipedia 的高质量视觉概念（visual concept）。我们根据 CLIP 原文描述实现了从维基百科提取 uni/bi-gram 以及高频标题的过程。

相关选取的超参数如下：

元数据的创建来源

MetaCLIP 算法简洁，可以将两部分分开植入已有的数据流水线。

如下图所示，该算法可以在数据流水线的早期进行植入，来减小数据规模和对计算资源存储的开销：

第一部分（元数据字符串匹配）能减少 50% 的数据量；
第二部分（平衡数据分布）能减少 77% 的数据量。

算法可轻松接入已有数据流水线，降低处理低质量数据的开销

下图展示了平衡数据分布的效果：横坐标将元数据里每个视觉概念的匹配数量从低到高排列，纵坐标累计匹配。

表格中展示了不同频率区段视觉概念的匹配数量：

平衡数据分布使得1.6B的原始数据被下采样成400M的训练数据

我们可以看到 MetaCLIP 数据算法对头部分布进行了高度下采样，这将降低头部分布的冗余无效信息和头部数据的噪声（比如 untitled photo），所有长尾分布的视觉概念全部保留。

三、实验结果

我们设计了两个数据池来运行数据算法。

第一个池的目标是获得 400M 训练数据来和 CLIP 进行比较；
第二个池的目标是所有 CommonCrawl 数据。

我们进一步对第二个数据池运行了两次数据算法，一次设定头尾分布的阈值（t=20k）与 400M 一致（最终获得 1B 数据），一次设定尾部分布的比例与 400M 尾部的比例一致（t=170k，最终获得 2.5B 数据）。

MetaCLIP 在 DataComp 的 38 个任务上的实验结果如下：

我们可以看到MetaCLIP 在 400M 上略好于 OpenAI CLIP 或者 OpenCLIP。在第二个池上性能进一步超越 400M。更多的数据在更大的模型 ViT-bigG 上产生更好的效果。而这些性能的提升完全来自数据而非模型结构改进或者训练技巧本身。

在 CLIP/SLIP 每个分类任务上的详细实验结果请参考原文。

四、实验结论

本文提出了 CLIP 的数据算法来产生高质量训练数据：算法可在所有 CommonCrawl 的 300+B 级图片样本对上并行运行。

实验表明元数据字符串匹配和平衡分布都对结果有重大贡献，算法无需使用 CLIP 模型过滤或者提高训练开销来提升性能，并且使得训练数据分布更加透明。

来源：公众号【机器之心】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

Meta联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜

热搜

热门跟贴

热搜

热门跟贴

相关推荐

男生做完实验发现食堂已下班 食堂大叔单独为男生下厨 网友这一刻幸福具象化了

尽管这项实验很危险，女人还是想继续尝试

河南今天有热看看实验就知道，男子把蚂蚁放地上直接“落地成盒”，蚂蚁：你了不起 你清高 你拿我做实验

“读纽约大学真要卖套房？”NYU学长公开留学账单和就读体验

AlphaFold的伟大，只因做对了这5件事！DeepMind副总裁：团队注定会取得突破

一场实验居然将自己变成了怪物！

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

​新一代注意力机制Lightning Attention-2：无限序列长度

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

英国团队用AI模型寻找失踪人员，成功率达19%，训练数据来自苏格兰高地

乌情报总局局长：俄S-500防空系统部件运抵克里米亚

纽约大学 公共管理 硕士项目详解

让二追三!中国女排3-2大逆转土耳其女排 香港站三连胜

一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

7 天全勤，日均科研 8.6 小时，最长 16 小时！天选打工人是你吗？

英媒劝美：少把精力放在压制中国科学上 不如自己进步

独行侠痛宰绿军夺总决赛首胜 东欧生死战50分

大家注意看！美国新一代隐形轰炸机B-21真实影像，太可怕了！

老头为制造完美水魈，竟然狠辣残酷用人做实验！

男生做完实验发现食堂已下班食堂大叔单独为男生下厨网友这一刻幸福具象化了

河南今天有热看看实验就知道，男子把蚂蚁放地上直接“落地成盒”，蚂蚁：你了不起你清高你拿我做实验

新一代注意力机制Lightning Attention-2：无限序列长度

纽约大学公共管理硕士项目详解

让二追三!中国女排3-2大逆转土耳其女排香港站三连胜

英媒劝美：少把精力放在压制中国科学上不如自己进步

独行侠痛宰绿军夺总决赛首胜东欧生死战50分