爱诗科技发布全球首个实时视频生成模型，曾获马云史玉柱团队投资|人工智能|大模型|爱诗科技|视频生成|马云史玉柱

今日，国内人工智能创业团队在世界模型方向取得重要进展，爱诗科技正式发布通用实时世界模型 PixVerse R1。这是全球首个支持最高1080P分辨率、可实现即时响应的通用实时世界模型，将视频生成从以往的“静态输出、等待成片”，推进至“实时交互、持续演化”，标志着人工智能视频技术迈入新的发展阶段，也被业内视为中国企业在该前沿领域实现的重要里程碑式突破。

实时世界模型，是一种能够对画面、声音等内容进行实时生成和交互建模的人工智能系统，使数字场景能够持续演化，并即时响应用户操作。实时互动视频生成是其中主要应用之一。

与传统 AI 视频生成需要等待数十秒甚至数分钟、一次性输出固定片段不同，PixVerse R1 的核心能力在于“实时交互”。在生成过程中，视频画面会随着用户指令即时变化，用户可以持续调整角色状态、环境变化和镜头走向，系统同步响应并保持画面、角色和场景演化逻辑的一致性，使视频内容能够连续生成而非反复重启，实现“所想即所见、所说即所现”的交互体验。

这一变化，使 AI 视频从“生成结果”转变为“生成过程”。用户不再只是等待结果的观看者，而可以像导演一样介入创作节奏。业内人士形象地比喻，这种体验就像演员在镜头前即兴表演——正如周星驰在电影《喜剧之王》中十秒钟完成七个表情变化的经典表演，在 PixVerse R1 中，用户也可以在极短时间内连续指示角色哭泣、跳舞或摆出不同姿态，这些变化会随着视频进展即时呈现，创意表达不再被“进度条”打断。

从技术层面看，PixVerse R1 基于原生多模态基础模型、自回归流式生成机制和瞬时响应引擎构建。相关机制使视频不再是由孤立片段拼接而成，而是一条可持续生成、可随时调整的视觉流。长期以来困扰 AI 视频生成的画面突变、逻辑断裂和高延迟问题，在这一框架下得到系统性突破。

业内认为，实时视频生成技术正在消除内容创作与传播之间的技术隔阂，重塑用户与人工智能生成内容之间的互动方式。视频不再是生成完成后的静态成品，而是一个可以被持续干预、不断演化的过程，创作与消费的边界也随之被重新定义。该成果也被视为实时世界模型从研究探索走向可交互、可部署的产品级阶段的重要标志。

从全球竞争格局看，这一突破反映出 AI 视频领域正在出现新的技术路径分化。据海外第三方人工智能评估机构的公开跟踪数据，目前全球排名前列的 AI 视频生成模型，多由中国企业推出。相关产品在生成速度、使用成本和并发能力等方面表现突出。

海外市场研究机构分析指出，中国企业在 AI 视频领域选择了一条不同于高算力、重渲染的技术路线，更强调工程化与系统级能力的突破。这种路径使实时视频生成技术更容易走向规模化应用，也被视为中国团队能在世界模型方向实现“从零到一”产品级突破的重要原因。

爱诗科技创始人兼CEO王长虎表示，PixVerse R1是全新的媒体形式，AI 第一次可以基于用户的意图实时生成一个持续演化、物理上合理的世界。传统视频是被记录的历史，而PixVerse R1开创了“正在发生的现在”的实时生成新纪元。无论是 AI 原生游戏、互动电影，还是生成式直播电商体验，叙事都能“所想即所现”（As You Think）。创作与消费的边界逐渐模糊：视频消费者同时也是创作者，能够在观看的同时立即调整和生成新内容。

业内人士认为，PixVerse R1 的发布，不仅是单一产品的技术进展，更标志着AI视频从“预录制回放”走向“实时动态生成”的关键节点。随着实时生成能力在更多场景中落地，AI 视频有望在互动娱乐、影视创作、教育培训、数字仿真等领域释放更大应用潜力。

爱诗科技成立于 2023 年，专注于 AI 视频生成大模型及应用研发。公司海外产品 PixVerse 及国内产品“拍我AI”目前全球用户规模已超过1亿，单月月活跃用户超过1600 万，产品被广泛应用于影视、广告、动漫及内容创作等场景。

此前，爱诗科技因在AI视频生成效果与产品化推进速度等方面的表现，被业内视为OpenAI 视频模型 Sora 的有力挑战者。爱诗科技在发展过程中获得了多家产业和资本机构支持，其中包括阿里巴巴、巨人网络等企业参与投资。