大模型,小应用;中模型,大应用;小模型,广应用。
一、对通用人工智能十年前的疑问
前几天参加了2024中国移动全球合作伙伴大会,主题是“智焕新生 共创AI+时代”。
自从2023年初ChatGPT火爆以来,我对人工智能大模型一直持谨慎态度。事实上,我接近10年前就在硅谷看过很多通用人工智能的项目,OPEN AI也是当时刚刚成立,我在看一些相关领域的项目时对这个方向或赛道存在一定的疑问,就此与当时硅谷的众多创业者进行过交流,但当时没有一个人能够解释清楚我的疑问。可以说,这个疑问在这一次中国移动全球合作伙伴大会上终于得到答案。以下先说下这个疑问的具体内容。
我们不要一遇到新的技术,就以为它会带来无限遐想的发展空间,那一方面是因为没完全了解这个技术的确切含义,另一方面是在不完全清楚技术内涵的前提下吸引投资者关注。事实上,无论任何技术都会有最基本的、普遍性的规律约束存在,但人们往往会在遇到新技术时把这些规律给忘了。尤其是在人工智能领域,这个问题表现得最为空出。这个一切技术都会有的最重要的普遍规律之一就是:
任何实用的技术都需要平衡成本与性能,因此一切实用的产品定义必须在一开始就清楚地界定实现的范围和性能表现,需要用尽可能低成本的硬件去实现足够满足需求的产品。一切实际的产品实现目标都不能是无限扩张的。因为实际能获得的硬件性能无论多么强大,永远都会是有限的。如果用有限的硬件性能去实现无限扩张的“通用智能需求”(“通用人工智能”这个概念很容易成为失控的、无限扩张的功能和性能需求),其实际产品表现与收缩为明确界定范围的需求相比,肯定是后者更为可靠和品质更为优异。如果用品质更为可靠的专业产品相互累积或联网,不是也可以实现通用人工智能吗?而且其性能表现还更为可靠和优异,产品成本也可控。这么来看,就存在一个疑问:开发通用人工智能合理的理由是什么?
现在人工智能AI+的发展趋势,事实上证明了我当时的疑问在相当大程度上是有道理的。所谓AI+就是在各个具体领域的专业应用。
但我也已不得不意识到,不管怎样,通用人工智能的确是在市场上火爆起来了,那么就得对这个火爆的原因给出一个合理的解释。
完全通用的人工智能现在都称为“大模型”,我们就把各个专业、行业或企业领域的应用称为“中模型”,延申到终端或家庭里的称为“小模型”。现在的实际情况就是:大模型小应用,中模型大应用,小模型广应用。
模型越小,产品定义的功能和性能目标就收缩得越小、越清晰,需要的硬件计算量就越小,成本越低且实现的产品功能和性能更为可靠和稳定。
二、大模型的小应用是什么?
大模型的火爆有多种原因,有些甚至是人为的。但的确有一个客观存在的成功原因:就是它“成为一个新的更好的通用人机接口”,这一点是此前从来没有任何人清楚阐释的。这可以说是我在这次展会上最大的收获之一。
计算机领域的进步和革命有很多,但人们可能更多关注到计算能力,芯片集成度等技术上的进步。但很多影响非常大的革命性进步表现在人机接口上。以下是计算机和网络在过去几十年革命性的人机接口进步。
图形显示器
鼠标
图形用户接口GUI,视窗系统
编辑软件的所见即所得
浏览器
门户网站
搜索网站
语音输入和控制
智能手机APP桌面图标
为什么是这样?因为人机接口直接影响人类使用计算机的方便性。越简单方便的人机接口,就可以使越多非专业的人使用计算机。以上人机接口的进步极大地方便了人们对信息技术的使用。通用人工智能的最大价值,体现在它的另一个名称叫“生成式人工智能”,它为人们使用信息技术提供了更为通用和简洁的人机接口,使得人们可以用更为接近自然语言的方式与计算机进行文字、语音、图像和视频的交互。在过去,搜索网站的人机交互已经相当简单,只要输入关键词,就可以获得大量搜索出的链接。但这个还存在一定的问题,一是搜索是非常简单和机械地只有在结果中存在输入的关键词,才会被搜索软件选择到。另一方面是它还需要人们在其中进行选择。大模型则提供了尽可能接近于人与人之间的交互方式。搜索的结果并不是直接对应是否存在关键词,而是已经显得是理解了输入的问题语义,根据语义来生成对应的结果,很少再需要人们进行大量选择了。ChatGPT这个名称中的“Chat”就是聊天的意思,它已经把搜索过程变成了聊天。后面的“GPT”意思是英文“Generative Pre-Trained Transformer”的缩写,意思是生成式预训练Transformer模型。Transformer这个词原意是“变换器”,“变形金刚”“变压器”也是这个词。但在人工智能领域极少人把这个词翻译成中文,一般都是说“Transformer模型”,有人提出把这个词根据发音翻译成“纯思法模”。所以,虽然人们经常谈论的是用这个工具来写报告、生成论文、图片、视频......但最关键的要点就在其名称中的“聊天”与“生成”。至于具体实现的人工智能的功能是否为大模型来产生,其实并不重要。大模型本身也是一个特殊的深度学习算法,以往其他的深度学习算法产生的人工智能成果是可以与大模型结合起来应用的。
人机接口影响极大,但其市场空间却远没有其在媒体上表现得那么大。用它生成各种文字、图片、视频内容的水平确实已经非常高了,例如,用它生成的明星图片,已经和拍摄的真人照片很难区分开了,并且品质很容易做到比实际照片更好。类似如下我写本文时临时用“豆包”简单发个指令就生成的明星照片。
如果生成得更专业一些就如下图。
引自公众号 Al星颜绘的Al生成明星图片
那么,这类生成的结果或产品有什么用呢?我们可以直接想到的一点是作为广告用途,那我们先来看下这个市场有多大。根据市场监督局公布的数据,2023 年全国从事广告业务的事业单位和规模以上企业广告业务收入为 13120.7 亿元。这么一看市场规模还是很大的,但是,其中广告设计和制作环节全年实现收入分别为 246.6 亿元和 231.1 亿元,在整个广告行业收入中的占比约为 1.88%。要看生成式人工智能在广告设计里面再能占多少,又得打一个很大的折扣。
当然,大模型的应用可以非常广,但在其他绝大多数应用领域,大模型也就只是承担一个比较方便的人机接口而已,这个环节很快就体现不出什么直接的商业价值。就如同图形用户接口,语音输入等没有直接的商业价值一样。所以,大模型是小应用。
三、中模型大应用
将人工智能与各个行业相结合,是商业价值最高的。而这些领域的人工智能应用在过去早就存在,未必一定要采用大模型技术。或者,即使采用大模型技术,也未必完全是ChatGPT的模式。更重要的是,很可能不会采用英伟达的芯片,也可以说,只有不采用英伟达芯片的人工智能才是大应用。安防、通过人脸进行身份验证、车牌识别停车场管理系统等,是我们日常生活中接触到的最多人工智能的应用案例,这些应用早在大模型出现之前很早就有了。当然,采用了大模型以后,可以使这些传统的人工智能应用获得更好的扩展。例如,以往车辆识别的数据结构化是预先设定了提取数据的要素,如车牌号、车辆颜色、型号等。但采用大模型,可以对获得的视频自然增加很多其他的结构化数据。例如识别出动物的种类(如猫、狗等)的毛色花纹,状态,所处背景,是否在吃食......这样用户可以通过输入一定的问题,很容易从海量的数据库中挑选出输入要求的图片或视频来。例如输入要求:找出正在吃猫粮的黄色猫,系统可以迅速把符合条件的图片或视频找出来。这个要求可能看起来没那么大用处,但如果是在街道上摄像头的视频数据,输入这样的要求:请找出某年月日上午某时间段范围内经过某十字路口的白色奇瑞瑶光车型,系统就可以迅速把相应的视频找出来。这就是极有价值的。
另外,采用大模型技术,可以使得技术水平不是那么高的产品代理商也可以针对自己的特定应用来进行训练,从而可以满足其特定的应用。而所耗费的计算能力却非常少,从不仅而成本很低,而且非常有利于针对各种特定的应用进行定制和优化。
这类应用在浙江宇视的产品系统中都已经非常成熟了。
以下是浙江宇视的各种行业大模型,也就是本文所称的“中模型”。
四、小模型广应用
以下是浙江宇视应用到家庭或非常狭窄场合的“小模型”。
这类小模型的人工智能算法因针对性极强,应用范围及场景极为有限,因此所需要的训练硬件性能要求非常小,它甚至可以把人工智能算法和应用都直接集成在摄像头里。这不仅成本极低,而且安装部署非常简单。
越是到终端,当然市场就越大越广。因此,小模型会是广应用。
也就是说,决定人工智能的真正未来命运和前途的关键,在于非英伟达芯片的应用领域,而不是媒体上热炒的美国式人工智能概念。为什么性能最强的英伟达芯片对应的人工智能领域难以获得大的应用,原因在于其应用的产品目标永远比英伟达芯片的性能更高远,甚至于接近无限。
技术应用的成功与否,并不完全在于其技术能力是否最强,更重要的还在于其产品定义是否在现实可用的技术能力范围之内。我在过去文章一再地强调过,技术的普遍规律是产品定义与技术能力相互的匹配。只有通过产品定义上的功能与性能简化和约束,使其落在有限成本控制范围内可用的硬件技术性能范围之内,这样的产品才有可能成功。如果技术能力最强,却总是提出比其能力更高的产品定义,纵使拥有最强的硬件能力,也难以做出好的产品。
热门跟贴