独家：谷歌视频大模型VideoPoet负责人蒋路加入TikTok|EO2|tiktok|videopoet|大模型|蒋路|谷歌

人才第一，字节跳动可否参与OpenAI与谷歌的二龙相争？

作者｜赵健

「甲子光年」独家获悉，谷歌高级科学家、卡内基梅隆大学（CMU）计算机学院兼职教授蒋路，已经加入TikTok。

蒋路是谷歌 VideoPoet 项目负责人，VideoPoet 是谷歌在 2023 年 12 月推出的视频生成大模型，类似 OpenAI 刚刚发布的 Sora。

昨天，昆仑万维创始人周亚辉在朋友圈表示，有个论文的作者加入字节北美做Tech Leader，正是指《VideoPoet: A large language model for zero-shot video generation》论文的作者蒋路。

资料显示，蒋路先后在西安交通大学、布鲁塞尔自由大学、卡内基梅隆大学学习计算机，并先后进入微软亚洲研究院、谷歌研究院、雅虎研究院实习。

2017 年，蒋路毕业后加入谷歌。他是谷歌云 AI 的创始成员，也是李佳博士和李飞飞博士首次聘请的研究员。此后，蒋路进入谷歌研究院工作。

蒋路的研究曾被应用到谷歌多个产品，如 YouTube、云服务、云 AutoML、广告、Waymo 和翻译服务，影响了全球数十亿用户的日常生活。

蒋路的工作在自然语言处理（ACL）和计算机视觉（CVPR）的顶级会议上被提名为最佳论文。他是研究社区的活跃成员，担任美国国家种子基金（NSF SBIR）的 AI 评审专家，并定期担任 CVPR、ICCV、NeurlPS、ACM Multimedia 和 AAAI 等著名会议的领域主席。

蒋路的研究兴趣主要在多媒体交叉领域，他专注于生成式 AI 和视频创作。2019 年起，他就开始尝试将 Transformer 用在图像、视频生成研究上。

与 Sora 采用的 Diffusion + Transformer 架构不同，蒋路负责的 VideoPoet 视频生成模型采用了单 Transformer 架构，可以将任何自回归语言模型或大型语言模型转换为高质量的视频生成器，支持生成方形或纵向视频，以针对短格式内容定制生成视频，并支持视频输入生成音频。

VideoPoet 采用了名为 Tokenizer 的数据处理技术，可以将视频和音频片段编码为离散标记序列（discrete tokens），这些标记也可以被转换回原始表示。其中，视频和图像数据使用名为 MAGVIT V2 的技术，音频数据使用 SoundStream 的技术。

VideoPoet 通过使用多个 Tokenizer 训练一个自回归语言模型，以学习跨视频、图像、音频和文本模态。一旦模型根据某些上下文生成了标记，这些标记就可以通过分词器解码器转换回可查看的表示。