ONE2X 正式发布了 Medeo 1.0,很易上手

https://www.medeo.app/

ONE2X 刚完成A轮,累计融资额近2300 万美元
资方包括清流、九合、联想,老股东美团龙珠和小米王川继续跟投,更早的投资方还有红杉中国和百川

团队约 30 人,核心成员来自月之暗面、字节、阿里、快手

晨然是 Medeo 的产品负责人,是最典型的 AI 产品经理样本:懂技术、善于思考、既了解模型的脾气,又明白创作者的痛苦

他之前是全栈工程师,剪视频剪了 8 年,做过 B 站 UP 主,上传过六七十个视频,从编剧、导演到剪辑全流程都干过

去年 7 月的时候,晨然跟我说他加入了一个视频工具创业公司,希望能创造点与众不同的东西

当时没太当回事,但直到前段时间才知道他去了 ONE2X 做 Medeo
优秀的人,总是可以与优秀的团队,一拍即合

打开网易新闻 查看精彩图片

ONE2X 的创始人王冠,则更是有趣
是月之暗面前模型产品负责人,也是月之暗面第一个离职创业的人

ONE2X 的由来

在加入月之暗面之前,王冠尝试过三次创业方向,每一次都精准地踩在了 OpenAI 的更新路径上

  • • 第一次,做写作辅助工具,刚跑通 Demo,ChatGPT 发布了

  • • 第二次,做「Excel 转图表」的代码生成工具,刚看到效果,GPT-4 发布了,自带 Code Interpreter,直接覆盖

  • • 第三次,做 Agent 工作流,刚准备融资上会,OpenAI Plugins 发布了,思路完全撞车

打开网易新闻 查看精彩图片
在虚无的地基上构建想法,无异于缘木求鱼

这让他意识到一个问题

如果不理解模型能力到底是怎么来的,未来会朝什么方向发展,你做的事情和模型的关系是什么,那就是在一个非常虚无的地基上构建想法

于是,他去了月之暗面,待了一年,搞清楚几件事之后出来创业

他的结论指向一个词:数据

王冠把 AI 行业的发展分成三个阶段:

  • 第一阶段,拼公域数据:谁能更快清洗互联网公开数据,这个阶段已经过去,格局已定;

  • 第二阶段,拼领域数据:「我有你没有」的行业私有数据,这利好大厂;

  • 第三阶段,拼内生数据:「之前世界上不存在的数据」

打开网易新闻 查看精彩图片
内生数据,是唯一的护城河

在 ChatGPT 出现前,没有通过对话方式解决各种问题的海量自然语言数据。这份数据是因为有了 ChatGPT 这个产品形态,才慢慢产生的

只有通过设计新的产品形态产生内生数据,应用层公司才能建立壁垒

这是王冠选择做视频的底层逻辑之一
视频是价值更高的模态,在美国市场,有 20-30 家做视频处理的 SaaS 产品,ARR 都能做到几千万美金

「一键生成」的问题

Medeo 的定位是「全品类对话式 AI 视频创作工具」
用对话做视频,而非一键生成视频

今年 5 月,Medeo 发布了早期测试版本
同期的竞品不少,纳米 AI 做得最早,小云雀、360 也在做类似的事

打开网易新闻 查看精彩图片

到了 10 月,这些声音基本都没了
信息插播:国庆之初,Sora2 发布

晨然复盘过这件事。他的结论是:剪辑和创作绝对不是线性的过程,是一个反复迭代的过程

「一键生成」的问题在于,它剥夺了用户迭代和修改的权利。一键出的视频不够好,用户想改又改不了,这就成了死局

如果一键真能出好视频,厂商应该直接生产内容去卖,而不是做工具

在目前阶段,一键生成还未走通
打开网易新闻 查看精彩图片
在目前阶段,一键生成还未走通

还有一个例子。有些竞品做了「画分镜」的功能,用户嘴上都夸好用,但实际上数据很难看,根本没人用

分镜只是传统流程中阶段性的产物,创作者真正关心的是最终效果。Sora-2 出来之后可以直接绕过分镜出更好的视频,内置了多分镜能力,对「先确定分镜再做视频」的工作流是降维打击

类似虚荣指标,或许还可以有「虚荣功能」
打开网易新闻 查看精彩图片
类似虚荣指标,或许还可以有「虚荣功能」

Medeo 早期版本其实是一个半成品态,生成系统还没完全搭建好。这次 1.0 版本,是把生成系统的架构搭建完成了,可以支持对话式连续创作、语义化 Workflow 的使用方式

这个形态参考了 Cursor

为什么是 Cursor

这里有个挺微妙的发现

晨然在做 Prompt Engineering 和 Context Engineering 的时候注意到:
目前主流的大模型,训练数据里高质量的逻辑部分,很大比例来自于 Coding 场景

这事儿就显得非常有趣:
在调试 Prompt 的时候,越对齐它的训练数据范式,模型就越听得懂

他试过用视频行业的术语去写 Prompt,效果很差
但用类似代码的逻辑,效果瞬间提升

非常有趣
要想让 AI 听得更懂,可以先把任务,伪装成写代码

这...让我想到了继刚提示词
打开网易新闻 查看精彩图片
这...让我想到了继刚提示词

Cursor 还有一个值得借鉴的,是及时反馈
Agent 如果 3 秒内没给反应,用户就会慌
在这里,Cursor 的交互做得最好

Cursor 和视频生成,隔空互动了
打开网易新闻 查看精彩图片
Cursor 和视频生成,隔空互动了

视频和代码最大的区别,是Validation
代码写错了, IDE 会报错
但视频创作没有「错误」,它是风格化的,允许幻觉
视频没有语法报错,只有好不好看

打开网易新闻 查看精彩图片

这意味着 Medeo 没法像写代码那样做自动化测试,得自己造「负反馈链路」
通过 AI 视觉模型去给用户「报错」或「提示」

打开网易新闻 查看精彩图片

这也呼应了王冠的产品架构思路,他把生成系统分成三层:

  • • 底层是 DSL(领域特定语言),定义了视频制作的原子操作;

  • • 中间层是 Context 系统,负责把用户模糊的意图转化为精确的指令;

  • • 顶层是 Environment,让人和 AI 在里面共同活动

打开网易新闻 查看精彩图片

Context is Everything」,王冠反复强调这句话

打开网易新闻 查看精彩图片

基座模型大家用的都一样,产品的优劣完全取决于你在模型之外构建的上下文

Medeo 工具

你在对话框里告诉 Medeo 你想做什么,它会帮你写脚本、拆分场景、规划节奏,然后自动匹配媒体素材、语音音色、背景音乐,最后把所有东西编排到时间轴上

Medeo 产品界面,非常清晰、易用
打开网易新闻 查看精彩图片
Medeo 产品界面,非常清晰、易用

三种玩法:

语义化工作流
用自然语言告诉 Medeo 你想如何制作视频,包括视频是什么样、按什么步骤制作、每一步需要什么工具。比如「用图生图确保人物一致性生成分镜,最后用 Sora-2 图生视频,然后配英文的解说」。Medeo 能直接响应你的方法,按要求执行

智能体模式
只描述你对视频的想法,让 AI 自由决策该如何制作。适合不想操心技术细节的人

对话模式
从一个 idea 出发,通过不断对话,明确和完善想法以及视频内容。可以先说「你好」,然后慢慢聊出一个完整的视频

这里,核心差异点在于「双重控制」:既有 AI 对话式修改的便捷,又保留轨道编辑的手动精修能力。交付的是可编辑的剪辑工程文件,不是死的视频

打开网易新闻 查看精彩图片

目前支持的模型包括: Doubao、Gemini、Midjourney、 Minimax 和 Sora-2

生成的品类,也是全支持:动画、漫剧、科普视频、教程、MV、广告,都能做

批发商 vs 零售商

我问晨然
“Medeo 和可灵、Sora 什么关系?未来模型能力越来越强,会不会把应用层覆盖掉?”

回答很直接
他们是供应商(批发商),我们是零售商(加工商)

模型厂是在超市卖矿泉水的,一瓶卖 2 块钱
应用层是在 KTV 里卖矿泉水的,可以卖 20 块

应用层,通过场景服务来溢价
打开网易新闻 查看精彩图片
应用层,通过场景服务来溢价

Sora 出来的时候,晨然说他也慌过,但体验后发现,它解决不了「灵感」和「叙事逻辑」的问题

素材越好,对剪辑和叙事的要求就越高

王冠有一个说法:视频可以分成两个世界。物理世界的视频,摄像头拍摄的,对应短视频生态,供给已经非常充分;理念世界的视频,AI 生成的,对应知识、艺术、精神信仰类内容,以前因为制作成本过高而稀缺

他把前者比作「夜店、生活广场、超市」,把后者比作「图书馆、歌剧院、大教堂」
ONE2X 的目标是后者

打开网易新闻 查看精彩图片

快手在今年 8 月发布的二季度财报中称,可灵 AI 的单季收入已超过 2.5 亿美元。Runway 在 6 月宣布年化营收超过 9000 万美元

市场是存在的。问题是谁能吃到应用层的溢价

一个 Remote Native 的组织

ONE2X 的组织形式也值得聊聊

从公司建立第一天开始,就决定以 Remote Native 的形式存在。没有管理岗,甚至不考勤

王冠把建立组织类比为强化学习中「搭建环境」的过程

每个员工都是独立的智能体
组织的任务不是去控制员工,而是搭建一个环境,让智能体在其中自主活动

Demo 先行
现在这个版本在 7、8 月份的时候就已经做出来了一个非常接近的 Demo,一两周时间就可以测试可行性

团队内认知闭环
Cursor 做得好,是因为团队本身就是自己产品的用户。程序员、懂 AI 的人,每天高强度使用 Cursor,每个人既是生产者也是消费者,非常清楚自己做的产品到底哪里不好

ONE2X 组织方法论
打开网易新闻 查看精彩图片
ONE2X 组织方法论

但 AI 加视频比 AI 加 Coding 难一点。AI 加 Coding 很容易在一个人身上完成闭环,但 AI 加视频,需要既懂 AI 又懂内容的人。如果反馈链路放得太远,迭代速度就会变慢

所以 ONE2X 的做法是:
既然要做创作工具,团队本身就得成为创作者

所以,ONE2X 招了很多真正懂内容的人,电影系的、影视行业的编剧,让他们反复使用 Demo,更快速地积累产品还有哪些问题

创作者智慧才是壁垒

Medeo 发现很多用户是 Prosumer(专业消费者/半专业人士)

有个编剧,把自己几万字的短剧写作指南喂给 AI,跑通了一个非常牛的工作流。他甚至觉得手动搞比用产品要好

到了 Medeo 中,他可以把这套手动流程用自然语言表述的方式「缝」进产品里

这给了团队启发:下一个阶段的产品,其实是围绕「创作者智慧」进行服务

域民不以封疆之界,固国不以山溪之险
打开网易新闻 查看精彩图片
域民不以封疆之界,固国不以山溪之险

工具随时可以被替代。但如果用户的 Prompt 习惯、项目 Context、Workflow 都沉淀在你这,产品才能成为真正的创作伙伴

所以 Medeo 现在做的很多功能,比如统一脚本格式、世界观设定卡、人物小传,本质上都是为了帮助创作者固化这些「独有智慧」

王冠表示:未来的创作者会两极分化,金字塔尖的艺术家/专家,他们控制的不是生产内容的能力,而是控制生产能力如何被使用的逻辑,不同创作者之间的壁垒在于 Recipe(配方)和 Taste(品味)

作为平台,不仅要提供锤子,还要帮用户把敲打手法存下来

最后

现在看到的 AI 应用,很像诺基亚手机上的计算器或贪吃蛇

作为创业者,在真正的「iPhone 时刻」到来之前,可以通过各种方式贴身的感知模型变化,积累数据和 Context,为未来做准备

一切都在成长,一些事情值得记录