凯文凯利参加杭州未来生活节
打开网易新闻 查看精彩图片
凯文凯利参加杭州未来生活节

他山石智库多年积累诸多顶级专家资源,精选推荐国内外人工智能领域重量级专家,2026年3月中旬皮埃罗教授和互联网思想家KK(凯文·凯利)、诺奖得主迈克尔莱维特即将访华,已开放合作邀约。如有出席活动、大会发言、企业探访等需求,请联系他山石智库。

在全球大模型竞争白热化的当下,视频生成领域再次传来了令人振奋的消息。近日,在 Artificial Analysis 发布的文转视频(含音频)全球榜单中,来自天工AI的SkyReels-V4凭借卓越的综合表现成功登顶,超越了包括 Veo 3.1、Sora 2 在内的多款国际顶尖模型。

这不仅是国产大模型在“多模态”赛道的又一次高光时刻,更预示着视频生成技术正式从“片段生成”阶段,跨越到了逻辑连贯、可控生产”的新纪元。

️ 技术内核:从“拼画面”到“懂逻辑”的跨越

以往的视频模型往往被戏称为“随缘抽卡”——画面虽然精美,但人物动作常有跳跃,情绪转变缺乏逻辑。而 SkyReels-V4 的核心突破,在于其自研的模态强化学习体系

全模态语义 Reward 模型:谷歌和 OpenAI 都在追求画质,而天工AI则给模型建立了一套“全局评判标准”。模型不再只盯着单帧画面的像素好不好看,而是会评估整段 15 秒视频的叙事是否合理。例如,当演员在雨中从紧张转为微笑时,肌肉的微表情和背景环境的互动会保持物理一致性。

阶梯式课程学习:研发团队采用了由简入繁的训练路径。模型先从 5 秒的静物拍摄练起,逐步进阶到 10 秒的复杂动作,最终掌握 15 秒带有剧情张力的长镜头。这种“循序渐进”的教导方式,让 SkyReels-V4 在复杂分镜处理上显得游刃有余。

创作闭环:让“不可控”变为“生产力”

对于专业创作者和“他山石”关注的行业专家而言,AI 是否好用,关键在于其可控性。SkyReels-V4 推出的两项重磅功能,直击 AI 视频工业化的痛点:

多关键帧参考(精准控场):不同于市面上仅支持首尾帧参考的模型,SkyReels-V4 允许用户上传多张关键剧情图片。AI 会根据这些“锚点”自动补全中间的过渡画面,确保视频的转折完全符合导演的构思。

网格参考(角色一致性):这是为 AI 短剧量身定制的神器。用户可上传多达 9 张角色关键帧,模型会精准锁定角色的面部特征、服饰以及整体视觉风格。这彻底解决了 AI 视频中常见的“角色走样”问题,为内容的商业化落地扫清了障碍。

️ 行业展望:视频工业化的“地基”已经夯实

在底层架构上,SkyReels-V4 采用了对称双流MMDiT 架构。这意味着它在生成的瞬间,就已经完成了音、视、文、图的深度对齐。

这种“原生多模态”的优势在实际应用中非常明显。目前,天工AI已将其应用于海外短剧平台 DramaWave。月活突破 8000 万的数据背后,是一套完整的**“技术→产品→商业化”**闭环。当 AI 生成的视频不再是零散的短片,而是可以直接进入剪辑台、甚至直接商业分发的生产级内容时,视频工业化的序幕已经拉开。

从底层技术的持续深耕到应用场景的精准捕捉,SkyReels-V4 的登顶告诉我们:真正的多模态时代,是图像、视频、音频与逻辑的整体协同。热闹之外,国产大模型正在把一件更底层、更长期的事业一点点做实、做透。

大会发言/企业内训/代言背书 欢迎联系
他山石智库 2015 年来商业合作数百位诺贝尔奖得主、图灵奖得主、两院院士、藤校牛剑院长教授、世界500强领导者、联合国高层及 openai 创始人等人工智能科学家、经济学家、企业家及《未来简史》作者赫拉利;世界首富马斯克母亲梅耶·马斯克等。为北京、上海、杭州、广州、深圳政府举办的国际化论坛、峰会提供演讲嘉宾;为阿里、腾讯、字节、百度等公司大会提供演讲嘉宾,并运营诺贝尔奖专家领衔的品牌代言背书和海外传播。他山石智库还应用独一无二资源,送数百位中国学子去美国常青藤及前三十大学,英国牛津,剑桥等名校留学。创始团队来自国务院发展研究中心、财新、清华、麻省理工。