出品 | 网易智能
作者 | 辰辰
编辑 | 王凤枝
一家规模仅有70人的德国初创公司,非常果断地将埃隆·马斯克(Elon Musk)拒之门外。
据多位知情人士透露,马斯克麾下的xAI近期主动寻求合作,试图获得Black Forest Labs的技术授权来为Grok构建视觉生成能力。然而这家德国创企却给出了硬核的拒绝理由,他们直言xAI的工作环境过于混乱,与之合作将带来极高的运营压力与风险。
面对拥有庞大算力集群的硅谷巨头,究竟是什么样的底层技术壁垒,让Black Forest Labs拥有了直接说不的绝对底气?
一、远离硅谷喧嚣:黑森林里的隐士团队
在旧金山莫斯康展览中心(Moscone Center)举行的HumanX峰会上,空气中弥漫着AI宇宙中心特有的焦虑与狂热。
推开门走几步就是OpenAI和Anthropic的总部,硅谷的行业巨头们在这里交换着关于算力与模型和AGI的最新情报。然而聚光灯的中心,却被一家距离硅谷8000公里且总部设在德国黑森林的小型公司占据了。
这家名为Black Forest Labs(BFL)的初创公司团队只有约70人,但就在去年12月,他们以32.5亿美元(约合人民币235亿元)的估值完成了一轮3亿美元的融资。英伟达与a16z和Salesforce悉数入场,并与Adobe和图形设计平台Canva签署了为其提供AI图像生成功能的商业协议。
更让硅谷业界关注的是一条刚被披露的行业内幕,他们拒绝了埃隆·马斯克(Elon Musk)麾下AI公司xAI的主动合作请求。
2024年xAI曾与BFL合作,由后者为Grok提供首个图像生成器。但因聊天机器人的安全保障有限,该合作引发了大量争议,并在几个月后xAI研发出内部模型时宣告终止。近期xAI试图重启合作,却被BFL直接拒绝。
拒绝原因并不隐晦。知情人士称BFL认为xAI工作环境出了名的混乱,合作起来运营压力过高。与此同时这家小公司却转身与Meta签下了1.4亿美元的多年期大单,展现出极强的议价能力与行业地位。
一位名为Dev Anon的开发者在社交媒体X上评价道,拒绝xAI以保持专注,这本身就说明了一切。70个人凭借潜扩散模型的效率就胜过了臃肿的硅谷实验室,物理AI对这个团队而言是正确的一步。
要理解BFL的底气,得先看其创始团队的技术背景。
BFL的三位联合创始人安德烈亚斯·布拉特曼(Andreas Blattmann)与罗宾·龙巴赫(Robin Rombach)和帕特里克·埃瑟(Patrick Esser),在AI学术界是扩散模型(Diffusion Models)的教父级人物。2022年那场席卷全球的Stable Diffusion风暴,其核心论文的研究正是出自这几人之手。
其中的核心灵魂人物龙巴赫(现任BFL首席执行官)与布拉特曼曾是德国慕尼黑大学(LMU)视觉计算小组的博士生,师从计算机视觉权威比约恩·奥默(Björn Ommer)。2021年他们联合埃瑟发表了具有里程碑意义的论文《使用潜扩散模型进行高分辨率图像合成》,这不仅是后来Stable Diffusion的技术基石,更以潜扩散概念彻底解决了超高清图像生成的高昂算力瓶颈。
随后这支被誉为扩散模型三剑客的团队被Stability AI招致麾下。在职期间他们主导开发了从Stable Diffusion 1.5到SDXL的全系列核心模型,将开源视觉AI推向了全球数亿用户的桌面。
然而正如许多怀揣技术理想的科学家一样,他们并不满足于单纯的商业应用迭代。2024年初在经历了Stability AI内部动荡与高管流失后,三位老搭档决定带着他们在潜扩散与对抗性蒸馏等领域的顶尖积累重返德国南部弗赖堡,开启了这段黑森林实验室的创业之旅。
联合创始人布拉特曼在HumanX的舞台上补充道,不和所有人挤在一起可能是一笔巨大的财富。任何创办过初创公司的人都知道,很大程度上这取决于专注和研究重要事情的能力。每当我在旧金山时,我很喜欢这里,但也发现很难集中注意力,因为发生的事情太多了。
这种专注带来的产出是极其惊人的。在资源远少于竞争对手的情况下,这促使他们采用了一种更高效的潜扩散研究路线。
如果你最近在社交媒体上看到那些甚至能精准还原复杂指纹且文字渲染丝毫不乱的AI图片,背后大概率运行的就是FLUX。在第三方机构Artificial Analysis的基准测试中,BFL的图像生成器性能仅次于OpenAI和谷歌,稳坐全球第一梯队。
二、2.8倍效率背后的底层创新:什么是Self Flow
BFL之所以能以小博大,靠的不是烧钱堆叠算力,而是精妙的算法架构。
传统的AI生成扩散模型(如Stable Diffusion或FLUX)通常需要依赖外部的教师模型(如CLIP或DINOv2等冻结的编码器),来提供它们自身无法学习的语义理解。但这带来了一个技术瓶颈,即一旦教师模型到了极限,扩大参数规模也不再能带来更好的结果。
最近BFL发布了一项名为Self Flow的新技术。这标志着AI视觉模型可能进入了一个全新的时代。
首先,Self Flow打破了传统模型的语义鸿沟。
传统模型的基础问题在于它是一个去噪任务,模型被展示噪声并被要求寻找图像,很少有动力去真正理解图像的本质。Self Flow引入了自监督流匹配(Self Supervised Flow Matching)框架,让模型在学习生成图像的同时,同步构建对世界的物理理解。
Self Flow的核心逻辑非常巧妙。它通过一种被称为双时间步调度(Dual Timestep Scheduling)的机制引入了信息不对称。
学生版模型:看到的是被严重损坏且充满噪声的数据。
教师版模型:作为模型自身的指数移动平均(EMA)版本,看到的是更清晰的数据。
核心任务:学生模型不仅要生成最终输出,还要预测其更清晰的自我版本看到了什么。
这是一个自我蒸馏的过程,其中教师模型在第20层而学生模型在第8层。这种双阶段(Dual Pass)方法迫使模型产生了一种深刻的内部语义理解。
训练数据对比最能说明其效率优势。传统训练需要700万个步长(Steps)才能达到基础水平,目前行业标准的REPA方法将其缩短到了40万步。
而BFL的Self Flow仅需约14.3万步。
这意味着Self Flow的收敛速度是目前行业标准的2.8倍,更是传统方法的将近50倍。
BFL通过一个40亿(4B)参数的多模态模型展示了这些成果,该模型在2亿张图像与600万个视频以及200万个音视频对组成的庞大数据集上进行了训练。在量化指标方面,Self Flow取得了优于竞争基准的成绩,图像FID得分为3.61,视频FVD得分为47.81,音频FAD得分为145.65。
三、从图像生成到机器之眼:物理AI的商业野心
如果BFL仅仅止步于图像生成,它或许只是另一个Midjourney,但该团队的视野远不止于此。
布拉特曼透露,视觉智能远远不止内容创作,这只是进入整个技术领域的第一个切入点。BFL计划在今年晚些时候推出一款由其AI模型驱动的机器人,并明确表示团队对物理AI充满期待。
这是一个巨大的技术范式转移。
感知物理世界:通过Self Flow技术,AI不再只是生成视觉图片,而是开始理解场景底层的物理和逻辑规律。
具身智能:在SIMPLER模拟器的测试中,经过RT-1机器人数据集微调的6.75亿参数版本的Self Flow模型,在打开抽屉并放置物品等复杂的多步骤任务中保持了稳定的成功率,而标准方法通常会完全失败。
多模态融合:传统的AI像是一个机械拼接的系统,视觉与音频相互独立。而BFL的Self Flow模型在训练时就实现了视频和音频的同步生成,这意味着未来的机器人不仅能具备视觉能力,还能实时理解周围环境的声音逻辑。
目前BFL已经与多家硬件公司洽谈,计划将技术嵌入智能眼镜和机器人中。正如社交媒体X上的科技记者Max Zeff所评论的那样,BFL尽管规模很小却能推动整个AI行业的进步,现在的战略重点是推进物理AI。
四、严守安全防线:底层技术团队如何应对风险评估
在深度伪造(Deepfake)技术泛滥的时代,生成式AI面临着严峻的安全挑战。
BFL并没有因为追求性能而放弃安全审查。在针对第三方机构Cinder的最新评估中,FLUX.2模型家族在严重风险漏洞上比其他主流开源模型(包括大型科技公司的旗舰模型)少了10倍以上。
他们采取了严密的多层防御机制。
预训练过滤:BFL与互联网观察基金会(IWF)合作,过滤已知儿童性虐待材料(CSAM)及色情内容,从源头上切断有害训练数据。
后训练抑制:团队通过多轮微调来抑制模型生成非法或有害内容的能力。这些针对性的后训练缓解措施在发布前帮助减少了77%至98%的系统漏洞。
发布合规:虽然BFL拥抱开源生态,但他们坚持使用禁止非法滥用的许可来发布模型。值得一提的是,他们最轻量化且最高效的klein模型展现出的系统漏洞反而最少。
这种对负责任创新的坚持,也是Adobe与Canva以及Meta愿意与其达成重要商业合作的信任基础。
五、降维打击的商业模式:开源生态构筑营销漏斗
BFL的商业化路径同样具有极高的行业参考价值。他们并没有效仿封闭API的围墙花园模式,而是采取了极具战略眼光的漏斗式营销架构。
底部开源模型:在Hugging Face平台上,BFL创始团队贡献的模型下载量已超过4亿次。这为他们赢得了海量的社区测试反馈和庞大的开发者生态。
中部低延迟API:为应用层开发者提供即插即用的内容生成服务。
顶部企业级授权:当大型企业想要把FLUX投入实际生产流程时,就需要向BFL购买正式的商业许可。
目前BFL的收入结构大致维持在平衡状态,一半来自基于调用量的API产品,一半来自经典的企业级授权。这种稳健的商业策略让联合创始人龙巴赫有足够的底气应对市场波动,即使在AI资本降温的假设下,依然能保持公司的可持续生存与发展。
六、结语:黑森林里的技术风暴
Black Forest Labs的迅速崛起,实质上是对当下AI行业暴力美学的一次无情嘲讽。
70个人的团队规模与15万个步长的收敛速度,彻底击穿了必须依靠海量算力与资金才能留在核心赛道的固有认知。
他们极其果断地拒绝马斯克(Elon Musk)的橄榄枝,本质上是一场极其理性的商业止损。这家德国团队十分清楚,通往物理AI的壁垒是建立在极致的代码效率之上的,绝不能让自身的底层技术沦为巨头内部混乱管理的陪葬品。
事实证明,当一家底层技术公司真正掌握了跨时代的算法效率时,它就不再需要去迎合硅谷的资本狂欢,而是真正拥有了让全球科技巨头排队买单的底层定价权。
热门跟贴