转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢合作!

转载请注明来源,并在文章开头添加以下文字/或公众号名片:来源:公众号☞不知名风险投资人 ♥作者:黄先生斜杠青年

♥声明:本文为原创文本,非生成式,转载请注明出处!

OpenAI 的 ChatGPT 风靡全球,仅在 100 月份就迅速积累了超过 9 亿活跃用户。这是有史以来任何应用程序增长到这种规模的最快速度,前两个记录保持者是 TikTok 的 2 个月和 Instagram 。每个人心中的首要问题是大型语言模型 (LLM) 对搜索的颠覆性。Microsoft本周发布了 Bing 公告,将 OpenAI 的技术融入搜索中,震惊了世界。

我是斜杠青年,一个PE背景的杂食性学者!♥

谷歌最近的行动让它看起来像是在跳舞。虽然我们相信谷歌拥有比世界上任何其他公司更好的模型和人工智能专业知识,但他们没有有利于实施和商业化其大部分领先技术的文化。来自Microsoft和OpenAI的竞争压力正在迅速改变这一点。

搜索领域的颠覆和创新并非一蹴而就。正如我在这里详述的那样,训练法学硕士的成本很高。更重要的是,在任何合理规模下部署模型时,推理成本远远超过训练成本。事实上,推理 ChatGPT 的成本每周都超过了训练成本。如果类似 ChatGPT 的 LLM 被部署到搜索中,这意味着谷歌 30 亿美元的利润直接转移到了计算机行业的镐头和铲子手中。

今天,我将深入探讨 LLM 在搜索中的不同用途、ChatGPT 的日常成本、LLM 的推理成本、Google 对数字的搜索中断影响、LLM 推理工作负载的硬件要求,包括 Nvidia 的 H100 和 TPU 成本比较的性能改进数据、序列长度、延迟标准、可以调整的各种杠杆, Microsoft、谷歌和Neeva解决这个问题的不同方法,以及OpenAI下一个模型架构的模型架构如何在多个方面显着降低成本。

搜索业务

首先,定义搜索市场的参数。我的消息来源表明,谷歌每秒运行~320,000次搜索查询。相比之下,谷歌的搜索业务部门在 162 年的收入为 45.2022 亿美元,每次查询的平均收入为 1.61 美分。从这里开始,谷歌必须为搜索、广告、网络爬虫、模型开发、员工等计算和网络支付大量开销。谷歌成本结构中一个值得注意的行项目是,他们支付了大约 ~$20B 作为 Apple 产品的默认搜索引擎。

谷歌服务业务部门的营业利润率为34.15%。如果我们为每个查询分配 COGS/运营费用,则每个搜索查询的成本为 1.06 美分,从而产生 1.61 美分的收入。这意味着具有LLM的搜索查询必须大大低于每次查询0.5美分<否则搜索业务对Google来说将变得非常无利可图。

ChatGPT 成本

由于几个未知变量,估算 ChatGPT 成本是一个棘手的命题。有研究机构建立了一个成本模型,表明 ChatGPT 每天的计算硬件成本为 694,444 美元。OpenAI 需要 ~3,617 台 HGX A100 服务器(28,936 个 GPU)来为 Chat GPT 提供服务。估计每个查询的成本为 0.36 美分。

该模型是在逐个推理的基础上从头开始构建的,但它与 Sam Altman 的推文和他最近所做的一次采访一致。他们假设 OpenAI 使用 GPT-3 密集模型架构,其大小为 175 亿个参数,隐藏维度为 16k,序列长度为 4k,每个响应的平均令牌数为 2k,每个用户 15 个响应,每日活跃用户数为 13 万,FLOPS 利用率比 FasterTransformer 高 2 倍,延迟为 <2000ms,int8 量化,由于纯空闲时间导致 50% 的硬件利用率, 以及每 GPU 每小时 1 USD 的成本。

请挑战他们的假设;他们很乐意使这一点更加准确,尽管他们认为他们处于正确的水平。

ChatGPT 的搜索成本

如果ChatGPT模型被强加到谷歌现有的搜索业务中,其影响将是毁灭性的。营业收入将减少36亿美元。这是 36 亿美元的 LLM 推理成本。请注意,这不是 LLM 搜索的样子,该分析在这里。

将当前的 ChatGPT 部署到 Google 所做的每次搜索中将需要 512,820.51 台 A100 HGX 服务器,总共 4,102,568 个 A100 GPU。 这些服务器和网络的总成本仅资本支出就超过100亿美元,英伟达将获得其中很大一部分。当然,这永远不会发生,但如果假设没有进行软件或硬件改进,那么有趣的思想实验。该研究模型还使用谷歌的 TPUv4 和 v5 在订阅者部分建模,这是非常不同的。他们还有一些 H100 LLM 推理性能改进数据。

令人惊奇的是,Microsoft知道将 LLM 插入搜索将压垮搜索的盈利能力,并需要巨大的资本支出。虽然该模型估计了营业利润率的变化,但请查看萨蒂亚·纳德拉(Satya Nadella)对毛利率的看法。

从现在开始,搜索的[毛利率]将永远下降。

这甚至没有考虑到这样一个事实,即随着搜索质量的提高,搜索量可能会有所下降,在LLM的响应中插入广告的困难,或者我将在本报告后面讨论的无数其他技术问题。

Microsoft摧毁了搜索市场的盈利能力。

在搜索广告市场中,每增加一个百分点的份额,微软的广告业务就是一个 2 亿美元的收入机会。

必应的市场份额微薄。任何股票收益Microsoft抢夺都将给他们带来巨大的收入和底线财务状况。

你会发现这些新模式可以做什么,但是如果你坐在一个昏昏欲睡的搜索垄断中,不得不考虑一个世界,这个世界的货币化方式和新的广告单元将面临真正的挑战,甚至可能是暂时的下行压力,你就不会对此感觉良好。

与此同时,谷歌处于守势。如果他们的搜索特许经营权步履蹒跚,他们的底线就会面临巨大的问题。股票损失看起来比上面的分析还要糟糕,因为谷歌的运营成本相当臃肿。

谷歌的回应

谷歌并没有对此置之不理。在 ChatGPT 发布后的短短几个月内,谷歌已经将他们的 LLM 搜索版本推向了公共领域。我们在新 Bing 与新 Google 上看到的情况各有优缺点。

Bing GPT 在 LLM 功能方面似乎更加强大。 谷歌已经出现了准确性问题,即使在他们舞台上演示这项新技术时也是如此。如果您同时测量 Bing GPT 和 Google Bard 响应时间,Bard 在响应时间上会碾压 Bing。这些模型响应时间和质量差异与模型大小直接相关。

Bard 将世界知识的广度与大型语言模型的力量、智慧和创造力相结合。它利用来自网络的信息来提供新鲜和高质量的响应。我们最初会用 LaMDA 的轻量级模型版本发布它。这个小得多的模型需要的计算能力要少得多,使我们能够扩展到更多的用户,从而获得更多的反馈。

谷歌正在用这个较小的模型在利润率上进行防御。他们本可以部署全尺寸的LaMDA模型或功能更强大、更大的PaLM模型,但相反,他们选择了更薄的东西。

这是出于必要。

谷歌无法将这些庞大的模型部署到搜索中。这会严重侵蚀他们的毛利率。在本报告的后面部分,我将更多地讨论这个轻量级的LaMDA版本,但重要的是要认识到,Bard的延迟优势是其竞争力的一个因素。

由于谷歌的搜索收入来自广告,因此不同的用户每次搜索会产生不同的收入水平。在印度,美国郊区女性平均每个定向广告的收入比男性农民高得多。这也意味着它们也产生了截然不同的营业利润率。

大型语言模型在搜索中的未来

将 LLM 直接投入搜索并不是改进搜索的唯一方法。多年来,谷歌一直在搜索中使用语言模型来生成嵌入。这应该可以改善最常见搜索的结果,而不会增加推理成本预算,因为这些预算可以生成一次并提供给许多人。我们在这里剥洋葱,以及可以完成的众多成本优化中的一些。

将 LLM 插入搜索的最大挑战之一是序列长度增长和低延迟标准。我将在下面讨论这些内容,以及它们将如何塑造搜索的未来。

在以后的文章中,我将在 LLM 推理和每次查询成本的背景下讨论 Nvidia A100、H100 和 Google 的 TPU。我还将分享 H100 推理性能的改进及其对硬件市场的影响。GPU与TPU的竞争力是这场战斗所固有的。

此外,无需新硬件即可显著降低每次推理的成本。往后,我将继续续写 OpenAI 在训练方面的下一个 LLM 架构改进,但推理成本也有改进。此外,谷歌还在利用一些独特的、令人兴奋的技术,我还将在以后的文章中讨论这些技术。

了解最新前沿科学、技术和应用,尽在公众号《不知名风险投资人》和《谁是药神》

关注我,带你先看到未来!♥

转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢合作!

转载请注明来源,并在文章开头添加以下文字/或公众号名片:来源:公众号☞不知名风险投资人 ♥作者:黄先生斜杠青年

♥声明:本文为原创文本,非生成式,转载请注明出处!