拥抱多模态小模型开拓生成式AI应用新思路|ai应用|模态|生成式|视频生成模型

最近一段时间，大语言模型的价格战热热闹闹地开打了。很多人认为，这意味着大语言模型的生态将随之成熟，应用落地进入进行时。但是越来越IT领导者发现，并非所有的企业应用场景都最适合大语言模型；而多模态小模型在企业级应用领域正展示出了广阔的前景。如此生成式AI开始了一个新的进程。

大语言模型不能承受之轻

去年以来，大语言模型热潮迭起，展现出了巨大的应用潜力。它们能够处理和生成自然语言，为人类提供了前所未有的便利。然而，随着这些模型的广泛应用，它们也面临着一些“不能承受之轻”。一些IT领导者发现，貌似强大的大语言模型可能无法满足更有前景的应用需求。

在大部分人眼里，大语言模型凭借先进的文本理解和生成能力，已经成为生成式AI的标志。除了代码生成助手和文生图生成器之外，大语言模型无疑是当今企业级市场大多数生成式AI实践的核心。

然而，并非所有问题都适合通过大语言模型来解决。一些IT领导者开始关注能够提供更有针对性结果的多模态模型，例如处理存储在电子表格和向量数据库中的动态表格数据，以及视频和音频数据。

根据IDC的《市场概览：生成式基础AI模型》报告的描述，多模态基础模型结合了包括文本、音频、图像和视频等多种模态，并能够为图像生成标题，或回答关于图像的问题。Google Gato、OpenAI GPT-4o、Microsoft LLaVA、Nvidia NeVA、Vicuna、BLIP2和Flamingo都位列多模态基础模型范畴。

很多先行者已经在尝试采用多模态模型以获取更好的应用效果。比如，美国西北大学医学院先进技术团队与戴尔人工智能创新团队合作，构建了一种专有的多模态大模型。该模型可以解释胸部X射线图像并总结关键信息。有了这个模型，患者可以比以往快80%获知检查结果。据悉，接下来西北大学还将和戴尔开发增强的多模态大语言模型，用于CAT扫描和磁共振成像，以及用于整个电子病历的预测模型。

西北大学麻醉师兼先进技术主任Mozziyar Etemadi分析说，大语言模型通常处理的是文本或Excel数据，现在他们将图像和X射线纳入其中；模型的应用使得反射医生不再需要编写文本注释，从而可以节约40%的时间。不仅如此，模型还能分析图像，因此还能节省更多时间。

专注于劳动力排班的SaaS公司MakeShift是另外一家采用新型多模态模型公司。在此之前，MakeShift曾经用大语言模型作为管理人员和员工的聊天支持。但MakeShift首席技术官Danny McGuinness分析说，当涉及到矢量数据、数亿行相互关联数据的大型图形结构化数据，以及想要优化面向未来的预测模型时，大语言模型就无能为力了。

MakeShift要满足客户全天候运营需求，还要考虑工会法规和集体谈判协议等要求，其中包括人员的资历、工作地点的变动或不同的工会协议、人员的疲劳程度、加班成本等因素，因此科学排班是一个复杂性和难度都相当大的任务。

由于新型多模态模型和专注于特定任务的小型模型的出现，情况正在发生变化。MakeShift的工程师开始采用初创公司Ikigai Labs开发的新型LGM（大型图形模型），用来处理复杂的结构化数据以建立因果关系和相关性。

McGuinness介绍，现在MakeShift的Ikigai Labs LGM的应用已经开始进化，因为人工智能具有学习能力，越来越多其他类型的数据，诸如天气预报、公共交通数据和商店人员密度的公共数据，正在被纳入这些模型中以改进排班功能。

模型走向小型化

Gartner的人工智能分析师Arun Chandrasekaran表示，大语言模型逐步发展成为更为强大的多模态模型是可以预料的，但由于巨大的成本，这类模型企业应用中占比较小。

他回忆，2023年真正占主导地位的是文本和代码模型，接下来就出现了具有计算机视觉，以及其他模态（如语音模型）的模型的端倪。

他强调，从根本上讲，构建这些模型的计算资源和数据资源仍然极其昂贵，因此许多企业更倾向于采用小型模型而非大语言模型——尽管强大的大语言模型在企业的一些用例中效果确实不错，但出于周期性定价策略会优先考虑模型的规模，因为小型模型成本更低，而且部署它足以胜任企业要完成的任务。

美国大数据和人工智能技术公司Databricks的人工智能副总裁Naveen Rao持相同意见。他指出，构建一个大型模型耗资可能高达2亿美元，其中绝大部分成本并不在于所需的计算能力，而是在数据标记和数据整理上，因为这决定了模型的性能。

Rao是已被Databricks收购的初创公司Mosaic的创始人。Rao有一个目标，那就是构建更为经济实惠且对任何企业都更加可访问的模型。他坚信，对于大多数企业来说，专业化是前进的道路。

他解释说，这实际上就是专业化与泛化的区别——较大的模型往往是在大量的标记，或者一般性文本和能力上进行训练的；而较小的模型是一个子集，往往专注于一件事情。

Rao认为，开源模型有助于CIO们获得更多优势：CIO可以从零开始，利用自己的数据构建自己的模型；或者使用现有的开源模型，在自有的数据上进行微调和定制，以适用于自己的应用。

Baldor Specialty Foods的CIO兼CDO（首席数据官）Satyan Parameswaran认为，这些模型可以为定制解决方案进行训练，而不会出现偏见或错误。当前，Baldor Specialty Foods正在计划部署小模型。

作为一个经验丰富的IT管理者，Parameswaran曾在 UPS 担任顶级 IT 职位数十年。他之所以更倾向于选择部署小模型，是因为有时大语言模型会产生幻觉。他建议，如果CIO不想涉及模型设计的工作，完全可以从Hugging Face获取一个小型模型，然后为特定的任务进行定制。

值得一提的是，一些企业级AI供应商已经开始提供较小的模型，包括C3.ai、Anaplan、Dataiku和Hugging Face等，更早就开始关注到行业小模型应用潜力的国内市场相关的产品更是琳琅满目。

生成式AI的新进程

多模态小模型为生成式AI的发展带来新的思路。这也使得相关的供应商备受关注。

上文提到的Ikigai Labs是由麻省理工学院人工智能和数据科学系主任Devavrat Shah和Vinayak Ramesh共同创立的。该公司提供基于行和列组织的表格数据的人工智能，发展态势良好。在过去六个月内，该公司的员工人数翻了一番，并在去年底获得了2500万美元的投资。

Ikigai Labs首席执行官Shah表示，他们自定义的LGM为表格形式的时间戳数据（如电子表格）提供了一种概率表示，从而捕捉数据中的不确定性和随机性。进行模型训练时，它们会学习随机变量之间的关系，了解可能缺失的数据，或者两个电子表格之间看起来相似的行，从而更好地预测和填补缺失的数据。

“这意味着你现在可以开始将数据进行拼接。” Shah总结说，用户可以在电子表格中生成新的行；在进行预测时，它具有时间性，如果变量在期间发生变化，可以检测到变化点，捕捉到异常。这种功能在涉及趋势分析、预测未来事件等应用场景中非常有用。

基于此，用户能够从多个维度的多个电子表格中创建和生成数据，并使用大型图形模型对数据进行模拟或合成持续时间，从而从多个维度分析和理解数据，为决策提供更全面的视角。

当然，这些模型定制程度的定制程度很大程度还得取决于成本投入的多少。目前，仅限文本的大语言模型需要巨大的计算能力。随着大型芯片制造商甚至云服务提供商竞相研发算力更充足的半导体，企业将继续尝试并投入生产各种大型和小型模型，以获得新的洞察，使其业务更加高效和创新。

LVMs和LGMs的应用尚处于初级阶段，但像MakeShift这样的早期采用者已经在获得回报。

Databricks的Rao表示，大语言模型也可以通过标记语言来处理表格和其他形式的数据。此外，还有支持视频等的多模态模型正在出现，用于严重依赖计算机视觉和视频的软件服务，为CIO提供了一系列可供调用的新工具。

CIO要扮演好三个角色

随着诸如Ikigai这样的替代模型的崛起，再加上大语言模型的应用有了更多的选择， CIO在生成式AI领域面临更加复杂和艰难的选择。

那么，当前致力于创新突破的CIO们该怎么做呢？

拥有25年关键IT领导者经验的Ameren执行副总裁兼首席客户和技术官Bhavani Amirthalingam建议，CIO应该多管齐下，扮演好三个角色：

一是成为一个接受者，了解当前嵌入到现有软件平台中的能力，并清楚该如何利用这些能力为组织提供帮助。比如，软件开发平台具备了人工智能功能后，要利用这些功能来简化开发流程，并提升各种软件和应用的能力。

二是成为一个塑造者，利用其中一个超大规模计算平台创建一个私有化且安全的现有大语言模型实例，从而为所在企业打造一个类似于ChatGPT的自有版本。通过对公司特定数据进行微调，为业务实现非常具体的用例。比如，为组织的不同职能构建协作助手。

三是成为一个制造者，构建自己的大型语言模型，这可能会昂贵且复杂，但可以为业务创造差异化的价值。

Amirthalingam强调，数据质量是有效的人工智能部署的基石——没有良好的数据质量，扩展人工智能解决方案就像在没有坚实基础的情况下建造一座建筑物。因此IT领导者必须优先考虑在数据质量和治理方面的投资。同时她补充，试点项目非常重要——因为它通常揭示了扩展的可行性，而设计一个可持续的架构以确保可扩展性与业务目标保持一致至关重要。

随着多模态小模型和小型模型的不断发展，企业将拥有更加灵活和经济的生成式AI解决方案。我们期待看到这些技术如何进一步融入企业运营，解锁新的商业价值，并塑造一个更加智能和自动化的新世界。