「在生成式媒体领域,算力将比数据先耗尽。」
算力成本有多夸张?
如果将一个顶尖的 LLM 处理单个 Prompt(约 200 Token)所需的算力定义为 1 个单位。
那么,生成一张高质量图像所需的算力大约是其 100 倍。
再进一步,生成一个 5 秒钟、24fps(每秒 24 帧)的标准清晰度视频(包含约 120 帧),算力需求又是生成图像的 100 倍
如果目标是生成 4K 超高清分辨率的视频,算力需求还要在这个基础上再惊人地增加 10 倍。
可以说,算力受限,是视频生成模型当下最典型的难题。
fal.ai,是在这个背景下跑出来的一家生成式媒体 infra 公司。通过一套统一、低延迟的 API 和云端推理平台,让开发者和企业,能高性能调用图像、视频、音频等多模态生成模型。
平台上托管了数百个先进模型,包括 DeepMind(Veo)、Kling、MiniMax 还有 OpenAI(Sora)。提供的价值很直接:客户不用自己搞 GPU 基础设施,不用运维,就能快速部署复杂模型。
在商业层面,fal.ai 在 2025 年直接起飞了。截至 2025 年 7 月,fal.ai过去 12 个月的收入增长 60 倍。2025 年 7 月至 12 月期间,公司估值翻了三倍;去年 12 月,搞定 1.4 亿美元 D 轮融资,估值干到 45 亿美元。
为什么是 fal.ai?
这篇文章,重点解析了 fal.ai 如何通过架构设计、性能优化以及生态协作,在生成式媒体的大趋势下快速抓住机会、然后建立起自己的护城河。
⬆️关注 Founder Park,最及时最干货的创业分享
超 19000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
邀请从业者、开发人员和创业者,飞书扫码加群:
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01fal 为什么早早押注生成式视频?
fal 是一家为开发者和企业提供高性能的 AI 生成媒体平台的 infra 公司,通过 API 和云端加速引擎让图像、视频、音频等 AI 模型能快速推理和部署。2025 年 12 月,fal 完成了 1.4 亿美元 D 轮融资,由红杉资本领投,凯鹏华盈、英伟达等跟投,公司估值达到 45 亿美元。
fal 成立于 2021 年,当时 DALL-E 2、ChatGPT 和 Llama 等模型相继问世,但市场对于 LLMs 过度关注,AGI 的宏大叙事吸引了绝大多数的资金与顶尖人才。相比之下,图像与视频生成在当时被视为一个被忽视的市场,大家普遍认为缺乏清晰的行业用例,更像是一个仅仅用于娱乐的「玩具级应用」。
然而,fal 团队在早期就敏锐地观察到虽然图像与视频生成在当时还是一个相对小众的市场,但客户的增长速度极快。因此团队并没有选择随大流去追逐 LLM 的热潮,而是选择在这个当时看似边缘的领域加倍下注,甚至在 Sora 发布前的两三个月,就已经将公司定位明确调整为「Generative Media Platform」。这种差异化的押注,使得 fal 在视频模型爆发前夕便已完成了在 infra 领域的生态卡位。
fal 对生成式视频这么有信心的原因其实是基于一个非常底层的逻辑:视频占据了互联网 80% 以上的带宽,那么在生成端,Generative Video 的市场规模理应与 LLM 相当,甚至更为庞大。尽管当时专注于解决这一问题的公司寥寥无几,但 fal 坚信这不仅仅是带宽的消耗,更是人类信息消费习惯的直接映射。
fal 进一步引用了 Andrej Karpathy 的观点来支撑自身对视频价值的深层理解:人类本质上是视觉动物,相比于阅读「文字墙」(Wall of Text),视频是一种信息压缩率更高、更符合人类直觉的媒介。
Andrej Karpathy 的观点
比如在教育场景中,视频的这种优势尤为明显:一个复杂的概念,如果用文字描述可能需要 10000 个字符,但通过视频往往只需要 15 秒就能更清晰地传达。fal 认为,目前教育市场在视频生成领域几乎仍处于未被触及的状态的限制仅仅在于模型的质量尚未完全达标,一旦 infra 能够支持更高质量、更可控的视频生成,视频将在娱乐之外释放出巨大的生产力价值,彻底改变人们获取信息和学习的方式。
02技术壁垒:
fal 从「算力受限」入手,加速视频生成
fal 团队认为视频模型与 LLM 在底层计算特征上存在本质区别。对于自回归的 LLMs 而言,性能瓶颈通常是内存带宽受限,这是因为在预测下一个 Token 时,系统需要将巨大的模型权重(例如 6000 亿参数)从显存搬运到 SRAM 中进行计算,速度往往受限于搬运的效率而非计算本身。
相比之下,视频生成模型则是典型的「算力受限」场景。视频模型需要在成千上万个 Token 上同时进行去噪和注意力计算。例如,一个视频可能包含 10 万个 Token,生成过程需要执行 50 次去噪步骤,每一步都要对所有 Token 进行注意力运算。这导致 GPU 的计算带宽被完全填满,系统不再仅仅等待内存传输,而是被纯粹的运算量所卡住。
为了量化这种差异,fal 给出了具体的算力对比数据:
•如果将一个 SOTA 级别的 LLM 处理单个 Prompt(约 200 Token)所需的算力定义为「1 个单位」,那么生成一张图像的算力大约是其 100 倍。
•进一步推算,生成一个 5 秒钟、24fps 的标准清晰度视频(包含约 120 帧),那么算力需求是图像的 100 倍,是 LLM 处理单一 prompt 的 10000 倍。
•如果要生成 4K 分辨率的视频,算力需求还要再增加 10 倍。
这种指数级的算力需求差异,解释了为何通用的大模型推理架构难以直接高效地服务于视频生成,也突显了针对 Compute Bound 场景进行深度优化的必要性。
因此,fal 组建了一支专注于极致性能的编译器团队,这支约占公司 10% 人力的精锐力量将全部精力投入到了 Kernels 的编写与优化中。值得一提的是,fal 的工程负责人 Batuhan 从 14 岁便开始编写编译器,曾是 Python 语言核心编译器和解释器的核心维护者,也是当时最年轻的维护者之一。
面对不断涌现的各类视频模型架构,fal 并没有选择针对单一模型进行孤立优化,以免在模型迭代后前功尽弃,而是选择构建了一个核心的 Tracing Compiler(追踪编译器)。这个编译器能够追踪模型的实际执行过程,智能地识别出执行路径中的通用模式,从而为后续的性能加速奠定基础。
在具体执行策略上,fal 采用了一种基于 Templated Kernels(模板化内核)的动态替换方案。通过编译器在运行时(Runtime)的追踪,系统能够将识别出的通用计算模式替换为高度特化的专用 Kernels,从而显著提升在异构硬件上的执行效率。这种在 Kernel 层面进行的数学上精确且合理的抽象,使得 fal 不仅能追求极致速度,还能确保模型输出质量的稳定性,这在对画质要求极高的媒体行业至关重要。
凭借这种专注,fal 的推理引擎通常能领先 PyTorch 等通用框架 3 到 6 个月的时间,当通用框架追赶上 fal 一年前的性能水平时,fal 已经完成了下一轮的优化迭代。
此外,fal 正在将自身的底层优势从离线生成快速扩展至 Real-time Media 领域。随着视频生成向 24fps 的实时流式传输演进,用户希望在输入 Prompt 的同时即刻获得视觉反馈。fal 早在一年前优化 Speech-to-speech 模型时就积累了大量低延迟经验,包括如何在全球分布式 GPU 集群中将请求路由至最近的节点,以及如何最小化系统自身的开销。现在,fal 正将这些针对亚秒级延迟的系统级优化技术移植到实时视频生成中,来解决当生成时间压缩至毫秒级时所面临的 infra 挑战。
03成本优势:
fal 如何管理算力成本?
与传统依赖单一云厂商的模式不同,fal 管理着分布在约 35 个不同数据中心的计算资源。这些资源构成了高度异构的计算组,每个数据中心可能拥有完全不同的硬件规格和网络环境。因此 fal 面临的一个挑战就在于,如何将这些物理上分散、规格上参差不齐的硬件资源,在逻辑上整合成一个统一的集群来调度,使运作效率能够达到仿佛是来自单一 Hyperscaler 的同构集群那样的水平。
为了驾驭这种复杂的异构环境,fal 团队花费了三年时间构建了从 Orchestrator(编排器)到自研 CDN 服务的一整套软件系统。fal 将自身构建的 infra 网络定义为 Distributed Super Computing(分布式超级计算)。
这套 infra 具备高度的智能化调度能力,核心逻辑之一是基于 Warm Cache 状态进行路由:系统能够识别哪些 GPU 已经加载了特定的模型权重,并将请求精准分发给这些「热」节点,从而避免了重复加载模型的巨大开销。
Warm Cache 状态是指缓存已经被预先加载了有用的数据,因此在后续访问中更有可能直接命中缓存、提高响应速度,而不是每次都去源数据获取。
这套 infra 还能根据模型需求智能选择最匹配的芯片类型,高效管理模型的加载与卸载,并根据实时变化的客户流量动态调整资源。这种技术让 fal 能够在任何有算力的地方挖掘产能,从而支持大规模的生成式媒体工作负载。
此外,fal 在 infra 的选型上还采取了明确的差异化策略,战略性地避开了传统的 Hyperscalers,转而深度利用 Neo-clouds(新兴云厂商)。
团队观察到,在当前的 GPU 算力市场中,即便是 Hyperscalers 也并不总是拥有绝对的规模优势,甚至像 Microsoft 这样的大厂也在从 Neo-clouds 购买算力。相比于受到公开市场压力、必须维持既定云利润率的上市巨头,成立仅三年的私有 Neo-clouds 公司面临的利润压力较小,这为 fal 提供了更具弹性的合作空间。
这种策略也带来了显著的成本优势。fal 指出,Hyperscalers 与 Neo-clouds 之间存在巨大的价格差异,使用 Hyperscalers 的成本有时可能比 Neo-clouds 高出 2 倍甚至 3 倍。造成这种差异的原因在于,Hyperscalers 拥有更高的运营开支(比如有更严格的 SLAs 和正常运行时间保障),且在供不应求的市场环境下,它们倾向于维持高价以获取更好的收益。相反,Neo-clouds 处于完全竞争的市场环境中,为了争夺海量的市场需求,它们倾向于通过价格竞争来填补产能。fal 通过这种套利策略,成功在 GPU 资源紧缺的环境下获得了极具竞争力的算力成本。
04生态卡位:
fal 是连接开发者与多家模型的单一接口
fal 是连接多个模型供应商的单一枢纽
fal 团队在 25 年 Q2 和 Q3 观察到一个极其显著的数据指标:一个顶级视频模型的「半衰期」(Half-life)仅为 30 天。这意味着视频生成领域的竞争格局极度不稳定,市场上的 Top 5 模型 list 始终处于持续不断的变动之中:来自不同实验室的新模型发布层出不穷,不断地取代旧模型的领先地位。这种极快的折旧速度导致目前的模型格局仍处于一种动荡状态。
在这种环境下,开发者面临着巨大的风险:如果将所有鸡蛋放在一个篮子里,也就是针对单一模型去进行优化或绑定,那么一旦下一个更强的模型出现,之前的投入就会瞬间失效。目前 fal 平台同时运行着超过 600 个生成式媒体模型。对于开发者而言,fal 成为了一个连接多方模型供应商的单一枢纽。
这让开发者可以不再受制于任何单一模型,因为在实际应用中,人们通常需要在同一时间使用多种不同的模型,以应对极短的技术生命周期。fal 通过这种方式积累了庞大的开发者基础。
fal 团队还回顾了三年前行业的一个普遍误判:当时人们普遍预测会出现「全能模型」(Omni Models),即一个巨大的单体模型能够同时完美处理视频、音频、图像、代码和文本等所有模态。
然而现实证明,针对特定输出类型进行优化往往能获得更好的效果。技术优势往往建立在对特定模态的极致打磨上,例如最好的超分模型通常只专注于超分任务,即便是在图像生成领域,最好的文生图模型与图生图编辑模型也往往不同。
超分任务指的是一种计算机视觉/图像处理任务,目标是从低分辨率(低清晰度)的图像或视频输入中生成一个更高分辨率、更清晰的输出。
这种专业化的需求导致了模型生态的极度丰富,即使是同一架构家族的模型,也需要部署独立的权重。因此,市场上并未出现赢家通吃的局面,而是呈现出显著的长尾效应:fal 平台上任何时刻都有接近 50 个活跃模型被频繁使用,此外还有大量因具备特定「人格」或特性而被开发者青睐的长尾模型。
尽管热门模型一直在不断更迭,但在客户的实际使用中,fal 观察到一种长期稳定的「组合拳」模式:开发者通常会同时维护两类模型。
1.偏于昂贵的大模型,如 Sora、Veo 或 Kling,这类模型代表了当前视频生成的最高质量,用于产出最终的成品。
2.主力模型(Workhorse Models),它们虽然体量较小、成本更低,但效果足够好,非常适合用于高频次的生成任务或原型验证。
这种高低搭配的策略,使得开发者能够在控制成本的同时,灵活满足不同业务环节对质量和速度的差异化需求。
fal 是连接实验室与开发者的分发枢纽
目前 fal 已经不仅仅是一个 infra 提供商,更演变成了模型实验室的关键分发渠道。通过过去两年建立的强大营销机器和开发者社区,fal 积累了大量忠实的开发者用户,这对于急需落地场景的模型实验室构成了巨大的吸引力。因此,包括 DeepMind(Veo)、Kling、MiniMax 以及 OpenAI(Sora)在内的顶级厂商,都选择 fal 作为合作伙伴。
这种合作关系往往通过联合营销(Co-marketing)的形式展开,作为交换,fal 经常能获得新模型的独家首发权(Exclusive Release Access)或长期独家合作。模型厂商希望接触最大的开发者平台,而 fal 借此吸引更多开发者,形成了一个正向增强的飞轮效应,巩固了自身作为行业首选分发平台的地位。
05用户是怎么使用生成式模型的?
fal 团队通过分析平台数据发现,在 fal 的前 100 名客户中,平均每个客户在同一时间会使用 14 个不同的模型。
进一步,团队观察到,目前开发者和创作者在平台上并非简单地输入一段文本就直接生成一部 5 分钟的商业广告。相反,为了获得更高的可控性,他们正在无意中复刻传统动画巨头(如 Pixar)早已成熟的制作流程:
1.在前期制作阶段,创作者会先使用 Text-to-Image 模型来反复迭代,直到确定理想的视觉美学和风格,并据此生成一系列静态图像来构建 Storyboard(故事板)。
2.在确定了关键帧和视觉基调后,流程才会进入制作阶段。此时,视频模型介入,负责在这些静态图像之间进行 Interpolation(插值),将故事板串联成动态的视频。
这种将「前期构思」与「后期生成」拆解开来的做法,最初在传统行业是出于成本考量,但在 AI 时代,它更多是为了速度和精确控制。这使得创作者能够像操作 Photoshop 图层一样,对每一个环节进行精细调整,而不是单纯依赖模型的随机生成。
这种模块化的工作流为 AI 时代的媒体制作带来了极大的灵活性。fal 提到,AI 让工作流变得非常有趣,一旦所有的节点都铺设完毕,那么,当一个新的、更强的 Text-to-Image 模型发布时,创作者只需「按下一个按钮」,整个流水线就可以基于新模型自动重新运行,生成全新的视觉组合。
尽管这种「牵一发而动全身」的重跑成本可能很高(例如更新一个环节导致重跑整个流程花费 1000 美元),但对于追求极致效果的专业工作室或创作者而言,这种能够精确控制并随意替换组件的能力是无价的。这也解释了为什么专业工作室更倾向于使用开源模型,因为只有开源生态允许他们深入控制每一个切片,添加自定义的 Adapters 或调整权重,从而将 AI 的生成能力完全驯化为自己工作流的一部分。
为了降低这种复杂工作流的构建门槛,fal 与 Shopify 合作开发了一个 No-code workflow builder(无代码工作流构建器)。这个工具对于非技术人员,比如 Shopify 的产品经理和市场团队,非常友好,他们可以利用该工具来快速测试不同的创意,或者横向比较不同模型的输出效果。尽管探索过程往往始于可视化的无代码界面,但这些经过验证的流程最终都会通过 API 沉淀下来,被正式集成到软件产品中。随着越来越多的传统软件工程组织开始对图像和视频模型产生兴趣,这种从原型探索到工程化落地的多模型调用模式正在快速普及。
Use Case
•教育:动态生成的个性化学习体验
fal 团队在访谈中强调,教育市场目前几乎是一片蓝海,拥有巨大的未开发潜力。其中一个极具创新性的案例是 Adaptive Security。这家公司正在 fal 平台上构建一种全新的培训模式:传统的安全培训通常使用固定的脚本和录像,但 Adaptive Security 能够根据受训者的具体情况,「即时(on the fly)」生成动态的培训视频。这种高度个性化的内容生成方式,解决了传统教育内容千篇一律的痛点。
Adaptive Security 是一家由 Brian Long 和 Andrew Jones 于 2024 年创立的 AI 网络安全公司,专注于通过先进的 AI 技术提供下一代安全意识培训、AI 攻击模拟和实时风险分析,帮助组织防御如深伪(deepfake)、生成式钓鱼、语音/短信诈骗等复杂的社会工程类网络威胁。
此外,fal 还提到了 AI Native Studios 的兴起,例如一款名为 Faith 的圣经应用程序,它利用 AI 制作高质量的圣经故事视频,在 App Store 上获得了极高的排名,这也证明了 AI 原生内容在垂直教育领域的吸引力。
•游戏:Text-to-Game 将是 Text-to-Video 的自然延续
对于游戏领域,fal 提出了一个观点:Text-to-Game(文生游戏)将是 Text-to-Video(文生视频)的自然延续。如果说视频是静态的视觉流,那么游戏就是可交互的视频。fal 预测,随着模型能力的提升,未来将出现一种全新的游戏形态:「一次性」的超休闲游戏(Disposable Hyper-casual Games)。用户可能只需要输入一个指令,模型就能生成一个只能玩一次、玩完即弃的微型游戏。虽然目前 3A 级大作的生成还需要 3-4 年的时间,但这种基于 World Models 的轻量级游戏体验已经不再遥远,并将彻底改变大众对游戏分发和消费的认知。
•AI 原生 IP:无主 IP 的商业化奇迹
在 IP 商业化方面,fal 观察到一个有趣的现象:虽然好莱坞拥有的经典 IP 价值巨大,但完全由 AI 生成的无主 IP 也在通过另一种路径崛起,特别提到了是 Italian Brainrot,这些角色最初没有任何版权归属,完全是由互联网社区利用 AI 工具生成的。由于内容生成的成本极低,社区可以生成无数种排列组合,最终那些能够捕捉大众情绪的形象会脱颖而出。
这些 AI 原生角色不仅在社交媒体上爆火,甚至还被开发成了 Roblox 游戏,甚至肯可能产生了可观的收入。这证明了在生成式媒体时代,廉价的生成能力结合社区筛选机制,完全有能力创造出具有商业价值的新一代 IP。
Italian Brainrot 是 2025 年在社交媒体上疯传的一种网络迷因(meme)现象,通常由 AI 生成的荒诞图像或短视频组成,内容是各种奇怪的动物或物体混合体配上伪意大利风格的名字和夸张的「意大利语」旁白,以荒诞、无意义、过度刺激的风格吸引观众。
在谈及如何避免 AI 生成的内容沦为廉价的垃圾内容时,fal 以 Meta 发布的 Vibes 和 OpenAI 的 Sora 做对比:Meta 发布的 Vibes 让人感觉像是一台缺乏情感连接的老虎机(Slot machine),用户玩了几次之后就可能放弃了;而 OpenAI 的 Sora 将重点放在了朋友、宠物和人际连接上,因此技术只是基底,能够建立情感共鸣的内容才是区别于「无限垃圾内容」的关键。
06fal 对生成式媒体未来发展的三个判断
视频模型的架构瓶颈在于压缩率
fal 团队明确指出,如果想要将视频模型规模扩展 10 倍甚至 100 倍,现有的模型架构在 Inference Efficiency 上已经有了一个巨大的瓶颈。单纯的工程化扩展已不足以解决问题,底层架构必须发生改变。
fal 以图像模型的发展史为例:早期的图像生成需要在像素空间(Pixel Space)进行操作,效率极低;后来引入了 Latent Space(潜在空间)技术,成功将 64 个像素压缩为一个像素,才实现了效率的质的飞跃。同样的逻辑现在必须应用到视频模型上,尤其是在时间维度的压缩上。fal 指出,目前行业内视频模型在时间维度上的压缩比率大约只有 4 倍,必须大幅提升压缩率,才能从根本上驱动推理效率和训练效率的提升。
Latent Space(潜在空间)是机器学习(尤其是深度学习)中一种把复杂、高维数据压缩成低维、抽象表示的空间,在这个空间里相似的数据点彼此更接近,从而帮助模型理解、生成和操控数据的核心特征。
这一点在追求 4K 实时视频的目标时显得尤为紧迫。fal 的内部测算显示,要实现 4K 级别的实时生成,意味着需要在现有基础上获得 100 倍甚至更多的算力支持。面对如此巨大的算力缺口,仅仅指望硬件性能的自然增长是远远不够的,硬件进步的速度无法在短时间内填补这一鸿沟。因此,模型架构必须变得更加高效。
在生成式媒体领域,算力将比数据先耗尽
fal 团队认为生成式媒体领域之所以令人兴奋,是因为仍有海量的探索空间。过去在数据处理上其实采取了最简单可行的路径:主要工作集中在对图像进行标注并训练模型进行视频和图像生成。然而,随着行业向更高阶的视频与图像编辑演进,创建高质量数据集所需的 Data Engineering(数据工程)复杂度将大幅提升。
但与 LLM 领域普遍担忧的数据枯竭不同,fal 认为,在生成式媒体领域,数据的供给端并不存在瓶颈,因为互联网上拥有极度丰富且免费的视频数据,因此 fal 给出了一个判断:生成式媒体行业面临的局面将是先耗尽算力,后耗尽数据(run out of compute before run out of video data)。
一年内将涌现出电影级 AI 短片,而且动画风格会比写实风格更早爆发
fal 团队对生成式媒体的发展速度给出了明确的预测:在不到一年的时间内,市场将能看到完全由 AI 生成(无人类拍摄,但包含人类剪辑)的 Feature-grade short films(电影级短片),时长大约在 20 分钟。fal 表示,目前的模型质量结合成熟的 Storyboarding(故事板)工作流,技术基础已经具备。只要投入足够的时间制作,这种级别的作品很快就会问世。
尽管目前行业内绝大多数的目光都聚焦在 Photorealistic(照片级写实)风格上,但 fal 团队认为,Animation(动画)、Anime(动漫)或 Cartoon(卡通)风格将比写实风格更早迎来爆发。这背后的商业逻辑在于,在传统影视制作中,拍摄写实画面本身其实是相对便宜且容易实现的,真正昂贵的是制作非写实的动画内容。AI 的介入大幅降低了昂贵的动画制作成本,这比降低本就廉价的实拍成本更具颠覆性。
以 Midjourney 为例,Midjourney 已经从最初追求照片级写实(Photorealism)转向了独特的艺术风格化(Artsy/Niche),这正是因为他们意识到,随着技术进步,单纯的写实能力将不再稀缺且容易被商品化,而独特的审美和风格才是真正的护城河。
从观众接受度和技术实现难度来看,动画风格也具有天然优势。fal 指出,观众喜爱《玩具总动员》、《驯龙高手》或《史莱克》等经典作品的背后原因其实在于动画片的 Storytelling 的能力,而不是画面是否有逼真的风格。此外,写实风格对人物面部表情的要求非常高,目前 AI 仍难以完美处理,容易显得面部表情不自然;相比之下,动画风格对表情的精确度更为宽容,不需要追求极致的仿真,这使得它能更快地被用于故事讲述。因此,AI 很有可能像当年计算机动画改变电影业一样,率先在非写实领域创造出全新的叙事媒介。
但这并不意味着写实风格毫无进展。fal 表示,在视觉特效(VFX)领域,像爆炸或建筑倒塌这类纯物理现象的生成,AI 其实已经做得非常完美了。
转载原创文章请添加微信:founderparker
热门跟贴