文 | 镜相工作室

1966年,一个简单的符号">"出现在计算机屏幕上。这个被称为"命令提示符"的符号,成为了人类与计算机对话的开端。半个世纪后,当研究人员发现通过精心设计的提示词能够指引AI完成各种任务时,"prompt"成为了人工智能时代最重要的术语之一。

现在,当我们与AI对话,说出的每一句话都是一个prompt。无论是让AI生成一幅画作,写一段代码,还是完成一篇文章,都需要通过prompt来表达我们的想法。这种人类与AI的对话方式,正在悄然改变我们的工作与生活。

这也是《The Prompt》这个栏目的由来。在这里,我们将与AI领域的创业者对话,发掘具有创新力的AI产品,记录技术变革带来的惊喜时刻。我们希望内容本身,也能成为一个prompt,为读者打开思考的空间,在技术浪潮中,找到观察和理解AI的支点。

文丨董慧 编辑丨赵磊

2024年下半年在社交平台上最火的图片,一类是hello kitty整顿职场,坐在起火的电脑前平静地喝咖啡,抡起大锤砸办公室;另一类是“梦核”胶片风,色彩浓郁、对比度高,构图荒诞,被称为“梦境模拟器”——这两种风格的图片都由AI设计软件Recraft生成,后者来源于Recraft的预设风格“Hard Flash”。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图片均由Recraft生成,使用风格分别是Photorealism、Hard Flash。

2024年12月,我们和Rectaft创始人兼CEO Anna Veronika Dorogush进行了对话。

Dorogush毕业于莫斯科国立大学应用数学和计算机科学专业。创业之前, 她在谷歌、微软和俄罗斯最大搜索引擎Yandex都工作过,但她更想创造属于自己的产品。辞职时,她并没有想好自己到底要做什么,2022年夏天的文生图浪潮——Stable Diffusion在8月份开源发布,DALL-E 2逐步开放访问,Midjourney开始beta测试,让她决定投身于此。

与Midjourney不同,Recraft成立的初衷是“专注于为平面设计师提供AI辅助工具”。起初获取用户很难,设计师常常说Recraft很好,但自己不会用,“这让我们很痛苦,因为他们就是目标用户”。于是她们决定自研模型。

2024年,Recraft自研模型Recraft V3在公开排行榜上排名第一,超过了Midjourney、Ideogram、FLUX等一众图像生成模型。Recraft也在尝试让设计师对生成的图像拥有更多的控制,比如生成风格一致的系列图像,效果模拟(Mock up,指可以将平面图拓展到立体产品上),局部修改等,这也让Recraft被称为AI版的Photoshop。

目前,Recraft团队仍然不大,20多人——Dorogush觉得已经不小。她们的总部在英国,注册地在美国特拉华州,没有继续在俄罗斯创业的原因是AI制裁。

至于Hard flash模式的流行,完全是意料之外的事。Dorogush说,自己本来以为,这么小众的风格肯定很少人使用。

以下是镜相工作室和Anna Veronika Dorogush的对话,略经编辑:

打开网易新闻 查看精彩图片

Recraft 创始人兼CEO:Anna Veronika Dorogush

“用户喜好很难预测,但找到受众,使用潮就会出现”

镜相工作室:中国社交媒体上很多人使用Recraft,特别是Hard Flash风格。你们有注意到中国用户在增加,或者这种风格被更频繁地使用吗?

Dorogush:我们确实注意到了。一开始我们不太明白是什么原因,直到后来和一位创业公司的朋友聊天——他们公司有个中国背景的创始人。他向我们解释说,这其实是一种文化现象。在中国,闪光灯摄影是生活的一部分,人们经常拍照,也习惯这种风格。对他们来说,这种风格非常熟悉、自然(feel right)。

这是文化的,也是地域性的。说实话,我们推出这个风格的时候,完全不了解这一点,这也让我学到了很多。

镜相工作室:你学到的是什么?

Dorogush:学到的是,不同的风格对不同的人来说有不同的含义,这很难预测。

在推出新风格时,我们会精心设计,确保它们能在专业场景中派上用场。有些风格适合用在网站上,有些更适合博客,我们挑选这些风格就是希望人们能在这些场景中使用它们。还有一些风格虽然不太常见,但很时尚,效果很惊艳,比如Hard Flash——它太不寻常了,有复古感,不是标准构图,而是有不同的角度。

一开始,我们觉得有些风格,比如工作室或企业照片风格,肯定会很受欢迎。有些风格我们预计可能用的人不多,但可以用在特别场合,Hard Flash就是这样。但对那些习惯用闪光灯拍照的人来说,这种风格特别对味,所以后来Hard Flash掀起了使用热潮。这件事让我明白,用户喜好很难预测,但一旦某个风格找到了自己的受众,(使用潮)就会发生。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

用户会使用Hard Flash风格生成超现实主义图片,并称之为“梦核”。

镜相工作室:Recraft其他写实摄影风格,比如Organic Calm和Evening Light,也都很独特。你们是怎么做到的?

Dorogush:在创建风格时,我们会做很多实验,让这些风格要么能解决某些任务,要么看起来独特,不死板、老套。我们还有一个特定的创造力指标,你可以在工具中看到,在生成图像时,有一个创造力控制(creativity handle),能让照片更标准,或不那么标准。这是我们团队设计师的选择。

镜相工作室:Recraft还有一些很有创意的功能,比如让图片一键拥有万圣节、圣诞节风格,用户还可以直接让Recraft生成meme图,团队如何设计这些功能?

Dorogush:这是整个团队都在参与的创造性过程,如果有人提出足够有趣的想法,我们就会去实现它。你看页面的抓手(grabbing hand),会发现它有6根手指。Recraft的工具中有一些幽默、意想不到的东西,这是文化的一部分。

镜相工作室:是你们公司文化的一部分?

Dorogush:是的,我们正在构建能让人们生活、工作更有趣的东西,让使用Recraft成为一种愉快的体验。

“所有用户都是自然增长”

镜相工作室:创业之前,你有很丰富的工作经历,为什么会想在2022年创业?

Dorogush:我觉得自己是个产品人(product person)。我曾在谷歌、微软和Yandex工作过。在这些公司里,我从零开始构建了很多产品,都是我自己想出来的,开发并让它们发展壮大,最终它们成长为一些成功的项目。外界所知道的例子是Cat Boost,它是一个开源库,但我在这些公司内部还有其他产品。我喜欢做这些事,一直想建立属于自己的东西,所以我决定创建一家公司。

一开始我并不知道具体要做什么。好几个月的时间,我一直在探索不同的选择,和人交谈,做实验和原型。然后2022年夏天,图像生成浪潮开始了,很明显,你可以在设计领域做一些事情。

我有一个姐妹是平面设计师,帮我了解了这个领域;我们公司最早的成员之一也是设计师,现在他是我们的设计主管。我们经常和他交谈,探索要做什么,他也一直在Figma上制作原型。这就是公司开始的故事。

镜相工作室:包括Midjourney在内的许多文生图公司,目标受众都是普通人,为什么你要把目标群体定位为专业设计师?

Dorogush:我认为在AI的影响下,设计世界正在发生变化。AI为设计专业人士提供了新的可能性,让设计变得更容易上手,更多的人可以进入这个领域。它也让专业用户能够做到以前做不到的事情。

目前在设计领域取得成功的公司并不多。因此,我们以及我们的每一个设计选择、每一项正在开发的新技术,都在塑造着行业的未来。这种能够参与定义行业发展的机会让我很激动。

镜相工作室:这样的选择有商业化的考虑吗?或许专业设计师更愿意为AI工具付费,而普通人想尝试,但不会在AI工具上花太多钱。

Dorogush:随着ChatGPT的出现,消费者为AI工具付费已经成为常态。不仅是专业人士,每个人都开始理解现在计算成本很高,所以支付一些订阅费是正常的。

对于普通用户来说,他们使用AI来做实验和寻找灵感。大多数情况下,文生图的功能就足够了。但在专业设计领域,你脑子里有想法,想要达到这个结果,仅仅靠文生图是不够的,你需要为用户提供很多控制,让他们能够向模型解释他们到底想要什么。这是一个不同的任务,也是我们的技术与其他图像生成公司的不同之处。我们不仅仅是构建文生图,我们在构建新的方式来控制生成。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Recraft上有不同风格预设,以上图片为同一提示词“Hello Kitty is wearing headphones and reading a book on the sofa. The background is a warm room with a fireplace”,分别应用Hard Flash、Retro Snapshot、Multicolor、Grain 2.0、Neon Calm风格。

镜相工作室:Recraft有超过200万用户,付费情况如何?

Dorogush:我们从2024年9月开始实行基于点数(credit)的订阅制,现在已经有一批订阅用户。我们有免费产品,每天有50次免费生成机会,对于想要看看AI能提供什么的人来说,应该足够了。但对于需要生成大量图像的专业人士来说,这是不够的,所以他们会付费订阅。

镜相工作室:除了喜欢Hard Flash的中国用户,你们有没有发现其他意想不到的事或者用户群体?

Dorogush:意想不到的是增长。通常情况下我们的用户增长是波浪式的,因为我们所有增长都是自然的,要么来自于人们与朋友或同事分享,要么来自于社交媒体上分享。当某个有社交影响力的人发现了这个工具,开始发帖,那么在这个特定的地理区域,我们就会有一大波新用户。我们在不同国家都经历过这样的增长浪潮,你永远不知道它什么时候会发生。

刚开始我们确实想以一种可控的方式增长,这样就知道明天的增长会和昨天一样好。但我们还没有做到,AI领域的大多数公司也都没有做到,他们都是自然增长。

镜相工作室:我很惊讶,很多中国AI公司在社交媒体上花了很多钱做广告。

Dorogush:如果效果好的话那很好。我跟其他AI创业公司和大公司都聊过,对很多公司来说,包括我们自己,带来一个用户的成本比这个用户能为工具带来的收益还要高——很多用户只是在免费试用这个工具,使用广告在数据上是说不通的,我们需要寻找其他的营销渠道。

但自然增长比任何营销都要好。我们最好的增长来自于发布最新模型——在图像质量公开的基准测试中,Recraft的模型是世界最好的。看起来,做到最好就是最好的营销。当我们获得第一名后,我们获得了很多新用户,并且仅仅因为这个原因,我们每天仍在获得很多新用户。

用8个月自研模型,每个人都睡眠不足

镜相工作室:为什么你们想要设计自己的模型?

Dorogush:文生图模型有两种模式,通过API调用现有模型,或是训练自己的模型。API调用只能实现基础的文本到图像转换。这对灵感工具来说足够了,但要做专业工具就不够用——无法精确控制元素位置,也无法保持特定的风格一致性,让模型用你的特定风格生成图像。

我们一开始是在对开源模型进行微调,但后来发现即便付出最大努力,开源模型的质量还是达不到用户预期,用户留存率也很低。于是我们决定自己训练模型,我们想让模型通过额外的输入来实现控制,让用户能够精确控制位置、风格、颜色等元素。

在2024年1月,我们发布了第一个自研模型之后,一切都改变了。用户留存率稳定了,他们开始持续使用这个工具。这让我们明白,高质量的图像生成能力对用户有多重要。

镜相工作室:你们的自研模型Recraft V3在Artificial Analysis Text to Image Model Leaderboard上获得了第一名,超过了Midjourney、Flux和Stable Diffusion。看到结果时,你和团队的感受如何?

打开网易新闻 查看精彩图片

Artificial Analysis Text to Image Model Leaderboard排名

Dorogush:那真是太棒了,我和团队到现在还为此感到非常高兴。那是非常艰难的几个月,我们计划了发布时间,给自己设定了严格的DDL,机器学习团队、后端以及前端团队一起工作。但后来机器学习团队无法按时完成,我们延迟了几天。没法在预定DDL前发布模型,让人压力非常大。到了发布时,每个人都超级疲惫,睡眠不足。所以在公开基准测试中获得第一名,对团队来说意义重大。

这个结果也改变了我们这次发布时的宣传策略。这次发布本来包含几个部分,一是从文字到图像的基础模型;二是 Recraft 作为世界第一也是唯一一个长文本生成模型,它能在图片中精准定位内容,可以按照你告诉模型的方式,将文本或其他图像放在图片的特定位置。(作者注:2024年12月的火山引擎大会上,即梦AI也实现了图片中的文字生成。)

我们本来打算发布一个展示文本定位功能的视频,但当模型在基准测试中获胜后,整个世界开始关注Recraft,我们想,好吧不发布这个视频了,让我们把重点放在新模型和它测试中的优势上。

镜相工作室:那获得第一之后,你和团队能好好休息了吗?

Dorogush:我们不只有一个模型,而是一整套模型,有很多预设风格和功能,除了文生图,还有图生图功能(我们把它叫做微调)、改变图像长宽比、局部修复、外部扩展,所以即使在主要模型发布之后,仍然有很多工作要做。但在主要模型发布两周之后,团队的大部分成员都休息了几天。

镜相工作室:公开信息显示你们是一个很小的团队。

Dorogush:我们并没有那么小,最开始只有5个人,但现在有超过20人,核心是工程和机器学习团队,我们也有设计团队。现在我们还组建了营销团队,负责社交媒体运营和博客文章。随着产品发展和用户规模的扩大,我们在功能开发和技术创新上的人才需求也在不断增长。

镜相工作室:Recraft如何做到让AI能够生成带有长文本的图像?

Dorogush:当你生成带有文本的图像时,只提供提示词,和提供提示词加上文本位置,模型看到的数据量是不同的。模型获得的输入数据越多,就越容易产生精确的输出。因此,我们试图给模型提供尽可能多的信息,即文本位置。对模型来说,遵循指令比仅仅理解提示词要容易得多。

这中间包含了很多不同的模型和工作,比如帮助处理数据的模型,由非专业设计师的标注人员和专业设计师参与的标注工作,训练OCR模型,新构建的数据集等等。

我们是第一家这样做的公司。我相信其他模型提供商也会尝试构建类似的东西,我们对此很开放。我们愿意与所有人分享这些信息,所以其他公司可能也会使用相同的技术来生成文本。

作者注:Recraft 团队在《How To Create SOTA Image Generation with Text: Recraft’s ML Team Insights》中解释过他们的训练原理,包括文字生成器和图像生成器,他们通过绘制文本布局,来给模型提供更详细的输入条件,实现图像中的文本生成。

打开网易新闻 查看精彩图片

Recraft生成带有长文本图像的流程图解

镜相工作室:你知道中国公司字节跳动最近也发布了长文本生成功能的文生图模型吗?他们也允许用户生成带有中英文文本的图像。

Dorogush:我不确定有多少公司能复制(replicate)我们。现在图像生成领域非常拥挤,有很多公司在微调Stable Diffusion,通过API使用现有模型,用户看到很多工具却不知道该尝试哪个。但实际上只有少数几家公司,包括我们在内,真正在从头训练模型,能够提供极高质量的图像生成。

对Recraft来说,主要挑战是要突破这些噪音,让人们开始尝试它。

镜相工作室:为什么这么少公司选择创建自己的模型,是因为太难了还是成本太高?

Dorogush:两者都是。这确实非常困难,你需要有一个超强的团队,组建这样的团队就很难,而且训练自己的模型也很贵。你要么已经是一家大公司,要么需要从投资者那里筹集资金,向投资者证明你有一个团队,能够利用这些钱提供世界最好的模型,这很有挑战性。

镜相工作室:我们注意到,Recraft生成默认是外国面孔而不是亚洲面孔,而且生成的亚洲人有点不自然。这和数据集有关吗?

Dorogush:这是数据集的偏差。构建策略需要优化一些东西,否则模型就会默认倾向于它在数据集中看到的东西。比如如果你不微调模型来生成全身人像,它会默认生成半身像照片,因为数据集中有太多的人像照片,需要去平衡这一点。

而要做到这一点,需要提供指标(metric),确保模型在不同方面产生足够的多样性,包括面部类型、人物形象等所有方面。

现在我们有一系列质量指标,包括艺术质指标,解剖学正确指标(作者注:指能够生成准确的人体结构,比如5根手指),低层次细节质量指标。我们正在建立多样性的指标,这对图像生成来说是一个非常重要的部分。但对于每个指标,你都需要标注它,让它正确运行。我们正在一步一步地建立它,2025年这些问题将会得到解决。

在找投资上,“我们觉得很安全”

镜相工作室:有人说Recraft是Photoshop的AI版本。你怎么看这个说法?

Dorogush:是,也不是。我们确实在为专业设计师构建工具,设计师会同时使用Photoshop和Illustrator,前者用于栅格图像,后者用于矢量图像,我们同时支持栅格和矢量图像。实际上对于栅格还是矢量,局部修复、微调、擦除器等操作是一样的。

不同在于,Recraft以AI为中心。这是一种新的工作方式,AI将开始成为设计师的首选工具。我不认为Adobe会消失,但越来越多的新用户将能够在没有这些工具的情况下工作。

所以我们不是在和Photoshop竞争,而是为设计师提供额外的工具选择,让设计师更有效地解决任务,获得更多灵感和可能性。未来我们希望成为设计师的主力工具,让他们不必频繁切换软件。

镜相工作室:Recraft是第一家生成矢量格式图像的文生图模型,Midjourney等模型都不能做到这一点,Recraft是如何做到的,这很难吗?

Dorogush:这的确是个难题,但我相信如果Midjourney投入大量资源和人才来解决这个任务,他们可能会做到。

矢量格式主要对设计师重要,而普通用户不太需要,因为矢量是一种有限制的格式,虽然可以无限缩放,但无法呈现复杂渐变和照片级的真实感。所以这其实是产品定位的问题——Midjourney的大多数用户不需要矢量功能,但我们的用户是设计师,他们需要。如果投入大量的工作,有意地专注于这个问题,其他公司也可以做到,但对他们来说可能偏离策略。

镜相工作室:现在有很多设计师担心自己会被AI取代,你接触到的设计师用户是如何看待AI工具的?

Dorogush:有一种想法认为AI取代设计师,参与设计过程的人数可能会减少,但实际情况并非如此。AI存在了两年,设计领域并没有以任何方式萎缩,人数还在增长。有一个全新的职业叫做AI设计师,在 Fiverr上(一个自由职业者在线服务市场平台),AI设计师数量已经达到传统图形设计师的五分之一。

说回用户,我们的用户对这项新技术非常满意。他们认为自己是第一批创新者,与技术和行业一起发展,为创新感到自豪。他们还认为AI非常富有启发性,因为在文生图时,AI会提供一些意想不到的结果。他们的效率也因此提升,我经常听到这样的故事,比如一位演示文稿设计师分享,现在一天就能完成以前需要一周的工作,他们能够用AI产出更多、更高质量的结果,获得更多的报酬。

打开网易新闻 查看精彩图片

使用的风格为Hard Flash,提示词为“In the snow, a group of friends are having a snowball fight.”

镜相工作室:版权一直是AI图像生成的一个重要问题,包括数据集版权以及生成图像的版权。去年在中国还发生过一起诉讼,4名设计师将一家图像生成公司告上了法庭。你们遇到过这个问题吗?你对版权怎么看?

Dorogush:这个行业的法律目前还没有完全准备好应对AI,它的发展方向取决于公司如何处理它。

比如,如何为AI生成的东西申请版权。一般逻辑是,申请版权,需要证明你在构建一个角色或你想要申请版权的东西上投入了大量努力,比如处理图像的历史记录能够证明,但对于AI生成图像,目前还没有这样的规定。

另一个问题是 AI 与插画师社区的关系。AI行业没有很好地处理这个问题,让他们产生了很多恐惧和愤怒。问题在于公司没有与插画师社区合作,为他们提供价值。提供价值有不同的方式。一种方式是帮助他们实验自己的风格,另一个方向是补偿艺术家,我们也在这两个方向努力。我希望在未来一年或几年内,行业在这方面会有所改变,艺术界的所有参与者,或者说整个艺术界都能从AI中获得足够的价值,他们也会对这一切的发展感到满意。

镜相工作室:下一步,Recraft打算做什么?

Dorogush:我们正在构建两个部分。一个是技术,也就是带有控制的模型。它包含图像生成,也包括各种用AI进行的图像编辑和设计编辑。

现在,行业和模型、技术都还没有达到那个水平,设计师要获得需要的结果还很难。人们可能觉得它就是写一个提示词,AI就能产出你想要的图像。但事实并非如此。它需要大量的迭代,在很多情况下,这甚至是不可能的。所以我们明年的目标是解决这个问题。目标是构建能够为用户提供足够控制的模型,让他们能够获得他们需要的结果。

第二个部分是工作流程。现在,作为一个设计师,你在使用Recraft,你也在使用其他一堆工具,你要为所有工具付费,而且要在它们之间切换。我们真的想消除这种情况。我们希望我们的用户能够在Recraft中完全解决他们的任务,而不需要来回切换。

镜相工作室:现在有更多投资者想投资Recraft吗?

Dorogush:我们在投资者方面一直很幸运,而且我们从一开始就证明了自己的实力。

投资者关注几个方面。一个是增长,公司在用户和付费用户数量方面是否在增长,我们确实在增长。另一个是变现,我们最近开始变现,也有愿意付费的用户。

第三是创新和创新的速度。我们建立了其他公司没有的技术,是在图像生成领域和设计领域创新最快的公司之一。我们团队中有极其有才华的人——有编程世界的冠军、决赛选手,有国际机器学习竞赛的冠军,这对公司来说也很重要,它能帮助我们能够以如此快的速度做到我们正在做的事情。我们基本上满足了所有条件。

在公司的创建历史中,来自世界顶级风投公司的兴趣一直很多。一开始就是这样,现在也是。所以我们在寻找投资方面感到安全,如果我们决定需要筹集资金,我相信我们应该能够做到。

(作者注:2024年1月,Recraft完成1100万欧元A轮融资,由 Khosla Ventures 和前 GitHub 首席执行官 Nat Friedman 领投,RTP Global、Abstract VC、Basis Set Ventures、Elad Gil 和其他天使投资人参投)