近日,国际权威AI评测机构Artificial Analysis更新了榜单,其中,中国电信人工智能研究院打造的星辰多模态视频生成大模型TeleVideo 2.0,位列全球前五、国内前三。
当全球目光聚焦于OpenAI、谷歌等巨头的文本大模型竞争时,视频生成领域正悄然成为下一个兵家必争之地。
和文本生成不一样,视频生成得处理时间上的连续性,还要符合物理世界的规律,同时得有艺术上的创造力,技术难度比文本生成大得多,几乎是呈指数级上升。
一直以来,视频生成领域有几个公认的难题:画面容易闪烁、崩坏,物体运动的时候会扭曲,时间逻辑也乱。很多模型能做出单帧好看的图片,但没法保证连续几帧画面的稳定和合理。
而TeleVideo 2.0的突破,正好解决了这些关键问题。
其次,在核心算法上,创新采用了“全局规划+局部精修”的架构。
这正是解决视频连贯性难题的关键。以前那种逐帧生成的方式,很容易积累误差,就像走路只看脚下,走几步就容易跑偏。
而TeleVideo 2.0用的“下一帧预测”模式,更像是先看清整条路,再慢慢优化每一步。让模型在开始生成视频时,就对整个视频的运动轨迹、内容变化有一个整体的规划,之后再对每一帧进行细致的优化渲染,这样就能保证物体运动流畅,细节也稳定统一。
最后,在训练框架上,实现了从“靠经验”到“标准化”的转变。
团队提出的统一视频后训练框架,把以前那种高度依赖专家经验的调参过程,变成了可诊断、可解释、能持续优化的系统工程。这不仅大大提高了模型优化的效率和稳定性,也为生成更长时间、更高分辨率的视频,提供了可靠的路径。
值得一提的是,中国电信自主研发的TeleTron训练框架,这也是国内首个能支持分钟级长视频和2K超高分辨率的训练框架。
通过创新的分布式技术,它把单位资源的处理效率提高了3.5倍,而且已经全面开源。这不仅给TeleVideo 2.0提供了强大的算力支持,也以开放的姿态,助力整个国产AI产业的发展。
技术的价值终究要落到应用上。中国电信没有让星辰大模型只停留在实验室的成绩里,而是很快把它变成了能实际使用的生产力工具。
基于TeleVideo 2.0,TeleAI推出了央企里第一个全链路AI视频创作平台——TeleStudio。这个平台整合了文生图、文生视频、图生视频、角色驱动等一系列功能,形成了一套完整的创作流程,能满足不同场景的创作需求。
星辰大模型这次的亮眼表现,也是一次有力的发声。它向世界证明,在人工智能这场关乎未来的全球竞争中,中国不只是有庞大的市场和应用场景,在底层核心技术的创新上,也已经具备了跻身世界第一阵营的实力和决心。
热门跟贴