作者: 单瀛博士

ARC Lab全称PCG应用研究中心, 在腾讯930的晨曦中发芽,扎根于内容和社交应用的沃野,沐浴着科技向善的阳光雨露,稳健成长,在实践中探索司研理性发展的空间。
背景

司研是Corporate Research的直译,特指设立在公司内部的科研组织。二十世纪初期,通用电气、贝尔电话、杜邦、柯达、IBM纷纷建立自己的实验室,并且在二战以后到七十年代达到了他们的黄金岁月;大量的基础研究在这些实验室里取得了突破,令许多顶尖大学和学术机构相形见绌。

七十年代中后期开始由于反垄断和对实验室在M&A中估值下调等原因,司研开始走下坡路。之后的发展几经沉浮,到2018年底我加入PCG的时候,整个行业中司研的天空是灰暗色的。那时候AlphaGo的震撼已基本消退,深度学习的潜力初显,挑动着每一个人的神经,但远未成为主流技术,更谈不上重塑产业。IBM Research 在业务转型压力下收缩基础研究,MSR和许多大厂的研究院也逐渐向短期成果和直接收益倾斜。就是在这样的背景下,带着930的激情,我们义无反顾地创立了应用研究中心(后面简称ARC Lab或ARC),立志做“顶天立地”的研究。

机制

ARC在2019年初创时期走了不少弯路,但有一个宗旨我们坚持了下来,那就是找最好的人才,做最难的事情。围绕这个宗旨,再结合PCG和公司的实际情况,我们形成了一套适合自己的运营机制。

小团队

要“找最好的人”,除了通常所说的门槛(qualifications),还包括其他维度;比如是不是适合这个团队、有没有做前沿探索的情怀、有没有把技术做到极致的强烈愿望等。找这样的人对于一个刚成立的实验室是一个巨大的挑战,一个直接的结果是我们到2019年才招了3个人。经过几年的积累,我们保持了一个不到 20个全职、30个左右实习的规模。全职的85%有博士学位,实习生的70% 为博士研究生,大部分来自中港的头部高校和著名实验室;是一个小而精的团队。

技术影响力漏斗

传统的司研一般都是在公司层面的,好处是有公司背书,但和实际业务会产生距离。应用研究中心背靠PCG的内容和社交生态,在这方面有着得天独厚的优势。同样是到有鱼的地方钓鱼,别人要先找到江河,而我们就住在大江大河的边上。作为一个偏科研的团队,我们的“鱼”是业务有需求、前沿有关注的项目,是下图中两个圈圈交集中的绿点点。

在招人过程中我经常被问到的问题是你们有多少时间做研究,多少时间做落地。这个对于司研来说似乎是绕不开的问题其实只是个执行层面的问题。所以我和他们讲,这是个Wrong Question;我们只关心一件事情,就是你能不能把一个技术做到极致,做出技术影响力。所以技术影响力才是我们的核心价值观,它包括学术影响力、行业影响力、业务影响力和社会影响力,依次形成一个所谓的技术影响力漏斗。

从上面这个图可以看出,ARC自22年进入成熟期后基本上每年发表的顶会和顶刊文章保持在30-40篇左右。这就是漏斗第一层的学术影响力,是对小绿点点的第一次筛选。没有特殊情况的话,第一层的所有工作都会开源,接受开源社区的考验和反馈。这中间大概会有1/4的项目会引起社区的关注,形成行业影响力。有意思的是后面的两层漏斗基本上也都遵循这个1/4的规律,结果就是我们每年有大概三个左右的项目是落地产生业务影响力的;还有不到一个形成了那种即使不是同行也能感受到的社会影响力。这四个层面都都会提升人才的向心力,产生人才影响力,这个我们留到后面再专门讨论。

绩效体系

和技术影响力漏斗配套的是一个量化的绩效体系,作为激励和人才培养的重要参考。下面这张表从2019年开始就给到了所有ARC的同学,中间有一些改动,但大的方向没有变过。我们的北极星项目是那些即被顶会顶刊录用,又被多个业务全量推广的技术。其它项目按照产出的影响力依次类推,总体来说项目所处漏斗位置越深分数越高。年中和年底所有成员的贡献汇总成一张表,加上每个人投入时间的占比,就可以算出每个人技术影响力的分数。

但这套体系最大的价值不在于操作上的便利,而在于每个人由此达成的对于技术影响力的共识,因为它在本质上就是一个协议。当大家都很清楚努力的方向,做好做坏都在明面上,成败也就成为了一种纯粹的结果;这让每个人在追求技术影响力的道路上变得更加心无旁骛和勇往直前。

想做“最难的事情”首先是要想清楚难度的定义。最近外网上有一个大讨论,是有关研究员和工程师的区别。起因是Elon Musk突然宣布取消这两种职位命名上的区别,引起了以Meta首席Yann LeCun为代表很多人的不满。其实一个问题难不难,主要看解决方案或技术路径的不确定性。问题的不确定性有大有小,这个是自然规律,由此产生处理问题不同的分工也是自然规律,没有必要在这个上面标新立异和争论。

ARC在投入方向上选择不确定性大的问题,具体讲就是多模态理解和生成;像下图所示的把文本、图片、视频、3D等模态的输入,通过理解和生成融合和转换成各种模态输出。相对于趋于成熟的大语言模型相比,这个方向还有很多基础的模型和数据问题没有得到解决;它同时也很契合我们业务加前沿的逻辑,因为涉及的都是和内容、社交强相关的技术。

学术影响力:探索中起步 H-Index的故事

学术影响力比较常用的一个指标叫做H-Index,用于衡量研究人员或团队论文产出的数量和质量,其定义为有 h 篇论文每篇至少被引用 h 次的最大整数 h 值。 比如下图中,ARC 2025年的H-Inidex是66;说明我们有66篇文章被至少引用了66次,也意味着如果要把H-Index提升到67,就需要再有一篇文章被引用了67次,而不是多篇低引用的文章。所以H-Index不是一个光靠数量的指标。

为了有一个参照,下面这个表格是一些AI界著名科学家从2019到2025年六年间发表文章的H-Index。其中Yann在前面提到过,他在和Elon的一次著名的争论中提到自己两年发表了80多篇文章。

H-Index也不是一个只讲质量的指标。下面这个表格列举了我们最高引用的一些文章,排在第一位的Real-esrga自2021年发表后已经有1769个引用,但它对于H-Index来说也只能贡献一个点。同时可以看到的是,高引文章分布在2D/3D/4D生成编辑、多模态统一大模型、多模态解析模型三个我们主要投入的方向上。

学术影响力的一个实例是我们在多模态统一大模型方向上的一系列探索性的工作。和文生图或图片理解这种只能生成或只能理解的单边模型不一样,统一大模型是一种能理解又能生成的模型。由于多模态令牌对齐、异构损失函数融合等基础问题上的挑战,这个赛道逐渐被认为是大模型领域的一个圣杯,到现在也没有完美的解决方案。下图是多模态模型发展2023/01到2024/09之间的一些关键节点;其中蓝色的是单边模型,绿色是统一模型,红色是ARC的统一模型。可以看出我们是最早开始这方面研究、提出这个课题的一批。这个方向发展到2025年,几乎所有的国内外大厂和实验室都有持续的投入。

统一大模型大致经过了两个阶段的发展,第一个阶段的模型能够做到理解和生成在概念层面的统一。比如下面我们SEED模型多图生图的例子中,指令是要把图二中的女孩放到图一的相框里面,但最终生成的图片只能做到概念上的融合。生成的图片中确实是有一个面对相机的女孩(概念来自图二)被放到了相框(概念来自图一)里;另外她头发的颜色介于黑(图二)和黄(图一)之间,颈上有一个项链(图一),头上的发带是棕色毛线的质地(图二)。SEED模型就像一个调色板,只不过所用的颜料是两幅输入图片中各种元素的抽象概念。至于生成图片的颜值明显高于输入图片,大概是要归功于模型本身的美学素养。

第二个阶段的模型能够做到理解和生成在细节层面的统一,其中一个代表性的工作是我们最近的MindOmni。下面的例子中,从左上角的文生图开始,可以对图片进行一系列的操作,并且可以做到在细节编辑(左三列)和全局转换(右一列)之间的自由切换,但成功率还有待进一步的提升。

ARC在统一多模态方向的工作对整个邻域的发展产生了深远的影响;其中SEED系列已积累了近1200个引用;MindOmni持续推进新生代模型的迭代和演进,也已经有了一定的影响力。这些工作让我们成为了行业内少有的探索过各种类型统一模型的实验室,过程中形成的经验和人才上的积累,通过技术影响力漏斗透传到了实际业务中。在后面业务影响力中讲到的案例中,主导视频理解模型设计和训练的就是SEED模型的骨干成员。

行业影响力:社区中打磨

一个研究团队的行业影响力主要通过开源;让大家来试用的同时收获反馈和建议,形成打磨的闭环;做得好的话会得到同行的点赞(星)。做过开源的同学都知道,一个开源项目要拿到500个Star是一件不容易的事情,这也是我们用来甄别一个项目是不是具有行业影响力的一个指标。下图是ARC历年来超过500星项目的数量,目前已达到26个,总点赞数已经超过了14万。

在我们众多有行业影响力的工作中比较有代表性的是视频重生成方向的Craft系列技术。视频重生成的问题源于对一个已经拍摄好或生成的视频进行修改的需求;修改的对象可以是人物和场景,也可以是相机、光照、材质、运动等。它涵盖了传统意义上视频编辑和特效,但能够在最大限度复原视频拍摄物理场景的基础上修改并重新生成视频。下面这个图展示的是我们一个叫DepthCrafter的视频景深估计模型,计算视频中每一个像素到相机的距离。从左到右分别是原视频、竞品效果(Tiktok的Depth-Anything-V2)和DepthCrafter效果。这个模型2024年9月份发布后就以精度和时域稳定性上的优势受到广泛认可。

在学术方面,DepthCrafter的文章被AI最大的顶会CVPR2025录用为Highlight(录取率<3%),并在会上获得PixFoundation研讨会的最佳论文。在行业影响力上,模型在Huggingface上被下载超过150万次、开源获得1.3K星;社区自发为它做了Nuke、Adobe AE、ComfyUI的插件;还获得了包括Amazon在内付费的授权和意向。下图是开源社区特效师在比较了很多方案后用它来做视频特效的例子,利用DepthCrafter的景深估计插入火焰的效果。

DepthCrafter的另一个应用是把单目视频转化为双目立体视频。下图是转换后视频的第一帧,如果用红绿3D眼镜就可以看到立体效果。

这个方向上有影响力的工作还包括单图相机变轨的ViewCrafter(1.4K星)和视频相机变轨的TrajectoryCrafter(700星)。后者对于一个已经拍好的视频可以在同一个时间从不同的角度去看原视频的场景和物体,就像下图一样;也可以模拟子弹时刻、推拉变焦等特效。

光照也一样可以变,就像下面左边的原始图片,在经过我们NormalCrafter处理求得表面法向量(下中)后,就可以重新进行打光(下右)。Crafter系列所在的行业处在一个飞速发展的阶段;随着技术的不断成熟,落地应用未来可期。

业务影响力:产品中实践

有了前面两层影响力的铺垫,落地业务的方式也更加多元化。下表中的一些落地的案例中除了我们主动寻求合作的项目,也有业务团队看到我们在开源社区的工作后找到我们一起合作的。落地的过程中一个最大的感受是做产品不易。就拿我们和元宝团队一起落地PhotoMaker到百变头像功能来说,元宝团队投入了大量的工程和数据标注资源,前后经过了快三个月才上线。对于一个小的探索团队来说,这样的投入是无法承受的。而要让业务团队拿出真金白银来和你合作搞落地,唯一的途经就是把那些不确定性高的技术(难题)做到极致,为业务省下探索的成本、提供差异化的价值。

另一种更加规模化的落地方式是多方参与的联合项目。发起于2024年底的视频结构化项目联合了TEG混元、元宝搜索、以ARC牵头的PCG公线团队(包括Venus、企鹅号);分别负责算力资源和模型底座、应用和工程、模型训练和数据。

项目的目标是解锁视频像素中存在的海量信息:我们每天选择看哪些视频的问题(见下图)就像开盲盒;除了封面和标题,如果不看完一个视频就不可能知道里面讲的是什么。不光是用户,视频搜索和推荐的引擎也一样;现状基本上都是靠视频周边的信息或用户行为在猜,因为真正的视频内容是以难以理解的像素存在的。

但如果我们可以把视频解析成像下面的结构化文本,视频内容就可以“一目了然”了。这对于搜索和推荐平台和用户体验都是一种再造的过程:平台可以搜到海量的视频内容;用户也可以和视频做非线性的交互,在自己感兴趣的章节之间跳转,或看到没有营养的内容直接略过。

联合团队一起推出的Hunyuan-ARC-7B模型的核心是一种视频定位解析的能力,直观上就是能够知道视频每一段都在讲什么(见下图)。具备这个能力的模型可以根据业务场景的需要生成各种结构化的输出,还可以和视频对话。

模型以混元为底座,通过添加多模态编码和连接层把底座升级为一个音视频文的全模态视频理解模型。最关键的技术突破是对一系列预训练、指令微调、强化学习任务和训练流程的设计,成功地把类似DeepSeek-R1的推理能力延展到了一个多模态模型上。这个7B的模型一开始就是面向应用的,擅长处理真实世界视频;在洞察人物的情绪与情感、理解视频背后的动机与用意、解析剧情与故事结构、甚至准确捕捉笑点与文化梗方面表现突出;很快就在各种业务中看到了实际的收益。

首先落地的是QB搜索,模型提供的短摘要使得检索的准确性从74%提高到了90%,CTR也涨了5.88%;在视频聚合卡、精探词等场景也取得了显著收益。紧接着模型也在2025年7-8月份作为视频理解的核心组件上线了微信元宝,解析从视频号转发过来的视频(见下图)。

这个功能有点像是为视频号装了一个智能“Watch Later”键。在不间断浏览视频的过程中把有价值但一时没空看、或一下子理解不到的视频先存起来。然后就着它总结好的视频导读慢慢品,是一种快慢结合的观赏体验。

社会影响力:技术的温度

严格来讲,技术影响力的每一个层面都会产生一定的社会影响力,但在我们的体系里,社会影响力是特指那些不是同行也能够感受到价值的技术,类似于我们和SSV和三星堆博物馆做的文物虚拟复原项目(见下图)。这种项目可遇不可求,影响力也非常大,发布那天几乎所有的主流媒体都做了报道。

在前面技术影响力漏斗的图中可以看到,任何一个技术影响力的提升都会提升人才影响力。但对于头部AI人才来说,最起作用的是学术影响力;所以在图中我们用了一个实体的箭头强调这层关系,其它都是虚线。原因很简单,他们一般都是顶尖实验室的博士研究生,4-5年的训练基本都是在做学术研究;这股惯性会直接影响到他们找工作中的决策和上岗后满意度。行业影响力特别是开源项目也有类似的作用;因为在学术界,开源已经成为学术活动的一个重要的组成部分,但起到的作用相对会弱一些。自2022年后,ARC在学术影响力和行业影响力上提升的同时,逐步构建起了自己的人才生态。

业务影响力和社会影响力对于人才影响力的作用主要是在转化和留用上。做研究出身的同学在经过一段时间的历练,耳濡目染一些具有用户和社会价值的应用和落地的成功案例,会逐步让自己的研究更加具有实用性、让技术实用化。在前面业务影响力部分提到的几个落地项目中,我们无一例外地看到相关同学在和业务团队合作推动落地时的热情,和产品上线后发自内心的喜悦。

后记

ARC Lab通过技术影响力产生产生人才影响力,吸引、留用、转化头部人才;又通过人才影响力提升技术影响力,从而形成正向闭环。身处人工智能日新月异的大时代,面对各种新的挑战,这些过往为我们带来发展的经验也随时需要迭代和拓展,但我们在理性的、可持续发展的司研道路上不断的探索和进取不会改变。