逐浪AI——赋能工业场景的思考|人工智能|大模型|工业场景|算法|计算机视觉|逐浪ai

2023年8月16日，2023年未来科学大奖名单公布。计算机视觉领域残差网络（ResNet）的四位作者—―何恺明、张祥雨、任少卿、孙剑，共同获得了数学与计算机科学奖。为了表彰他们在2015年提出的ResNet对AI算法在计算机视觉领域的卓越贡献。这是人工智能相关技术“出圈”获得科学界认可的一次。

这一次的“出圈”不禁让人想起了2016年3月，Google公司开发的具有“深度思维”的AlphaGo（围棋机器人），在同世界著名选手李世石的对局中，以4比1的总比分获胜，成为第一个战胜围棋世界冠军的机器人。一石激起千层浪，公众第一次意识到人工智能已经在某些领域拥有了超越人类的能力。而在彼时，人工智能对于人类而言，就像一个天真的孩子打开一扇门，看到了外面的花花世界。应运而生的便是此起彼伏的讨论，人工智能如何改变人们的生产和生活方式？人工智能可以带来哪些科技突破？等等。第一波浪潮袭来，各个行业惊喜万分，都在尝试如何利用人工智能来解决本行业的问题和挑战。

从第一波浪潮到蓬勃发展

在计算机视觉领域，人工智能的任务主要分为四部分——图像分类、语意分割、目标检测、实例分割。

人工智能的四项任务

以上图为例，图像分类是指AI模型能有效对猫的图片和狗的图片进行区分；语意分割是指将图片中不同的对象（猫、草、天空等）进行识别和区分；目标检测是指对图像中的单个或多个物体进行识别并输出物体的类别和位置；实例分割则是更近一步的识别，将相同类别下的不同个体进行识别和区分，即图中两只狗会识别为两个个体，这不同于语意分割将同一类别所有物体作为一个对象识别。

然而目前，人工智能在计算机视觉领域已经展现出来可以处理更高阶、更复杂场景的可能性，例如人脸识别、姿态识别、3D检测、自动驾驶等。尽管如此，这些场景也并未离开前述四项任务的范畴，而是更多样性的组合方案。

一个能解决任务的模型需要经过训练，而训练一个AI模型需要三个部分：数据、模型和算力。这三部分也伴随着人工智能技术的沿革而不断发展。面向多种任务场景的海量数据集源源不断地开发出来，例如1.7万张的PASCAL数据集、1400万张的IMAGENET数据集、有250万个对象标签的COCO数据集等。这些数据集本身具有较强的泛化性，可以通过前期的预训练让模型建立一个基本认知，从而有效提升模型在只有较少数据量的具体场景情况下训练后的质量和效率。

有了需要进行训练的数据，就需要搭建AI模型。为了更加方便地搭建模型，国内外相关公司陆续开发了深度学习代码框架，目前比较常见的有Tenso Flow和PyTorch，国内框架（如百度飞桨等）的开发也在不断完善，奋起直追。

当然，还有一个离不开的关键部分——算力。英伟达（Nvidia）公司的显卡产品在AI模型训练的算力这一项选择中，几乎占据了垄断地位。但众所周知，根据美国最新的规定，从2023年11月16日开始，英伟达将无法向中国、沙特阿拉伯和阿联酋等国家和地区提供适用于AI 和 HPC 计算的A100、A800、H100、H800、L40、L40S 和 GeForce RTX 4090 卡和模块。强算力、高性能的显卡被禁，对于国内AI产业的发展，影响是深远的。

从数据合成到

第二波浪潮中的大模型

除了前面提到的图像分类、语意分割、目标检测、实例分割四个主要任务以外，近几年图像合成技术异军突起，给基于AI的计算机视觉领域带来了新的技术增量。

生成对抗网络（GAN）并不是第一个面向图像合成的神经网络，但是它的提出打开了新的局面。多种多样的生成对抗网络，基于该构进行优化升级，在众多的衍生网络中，StyleGAN是表现较为突出代表性网络。StyleGAN提出了一种控制思想，即针对合成图像不同区域的特征进行有针对性的控制。以图中的人脸图像为例，在StyleGAN网络中，可以针对性地对发型、年龄、肤色等进行局部的风格变化，且表现的结果较为稳定。

StyleGAN网络

当然AI科学家们不会只在GAN的技术路径下内卷，总是有人孜孜不倦地寻求新的技术路径，于是扩散模型（DDPM）应运而生。Stable Diffusion可谓扩散模型技术路径下，目前最广为人知的网络结构了。在该网络结构的设计中，文字语音、几何图形、真实图片等均可以成为控制图像合成的条件，同时也给模型训练提供了更多可能性。正是在这技术路径下，AIGC（人工智能自动生成内容）技术实现了突破。Midjourney、DALL·E等项目不仅仅实现了合成图像，同时也带来了丰厚的商业利润。

第二波浪潮就是AIGC和大模型的浪潮，各行各业为人工智能实现的质变感到惊讶，惊讶之余也积极投身到相关的开发应用工作中。

2023年被称为中国的大模型元年，从年初美国OpenAI公司的ChatGPT火出圈后，国内的互联网公司、初创企业和学术机构都参与到了大语言模型的研究和开发当中来。在过去的五年里，国内和国外的研发机构也是经过层层突破，才让大语言模型技术走到今天，带给大众智能的体验。

大语言模型的发展历程

如果追溯大语言模型的发展历程，能看到从2018年开始，已经有机构开启了大语言模型的研究，这个发展历程中自然也包含了前述的GPT。最早的GPT-1的研发开始于2018年，当时的GPT模型需要通过监督学习实现，包含1亿个参数，仅仅是一个训练后能执行单一功能的语言模型。到了GPT-2的时候，参数量增加到了15亿，数据不再需要人工标注，且在未针对下游任务进行训练的条件下，就有很好的表现。鉴于GPT-2技术路径的有效性，GPT-3沿用了该版本的预训练机制，经过训练数据和参数量（1750亿）的扩大，实现了较好的零样本条件下的理解力。到了GPT-3.5和GPT-4版本中，OpenAI的研发人员又做了三个方向的优化，即预训练一个超大的语言模型；收集人工打分数据，训练一个奖励模型；使用强化学习方法优化语言模型。优化后的模型效果有了更进一步的提升。这里需要说明的是，GPT-3.5是一个纯自然语言处理模型，也就是说它的输入和输出都是文字；而GPT-4已经拥有了多模态理解能力，它的输入和输出可以是文字，也可以是图像。

大语言模型发展如此迅猛，自然会有人问，面向计算机视觉的大模型的进展如何？2023年上半年Meta（前身为Facebook）公司发布了SAM（Segment Anything Model，分割一切模型）项目。该项目在一个相对简约的模型框架下，实现了对生活中物体的高精度轮廓识别。除了模型本身的能力以外，与SAM一同发布的SA-1B数据集也是功不可没。该数据集中的数据平均分辨率为1500×2250，总共用包含1100万张多样化真实图像和11亿个高质量但无类别标签的分割掩码。正是在这海量数据的加持下，SAM被称为计算机视觉界的“GPT-3”，这也是对得起智能水平的一个客观评价。

尽管SAM在图像处理还没达到GPT-4的效果，基于该模型优化或者二次开发后的解决方案，已经给工业界带来了新的落地契机。遥感图像中的河流、房屋、树木、道路可以高效地被分割出来。在通用场景下，不管是户外的公园还是室内的房间，图像中的对象不仅能被分割，还可以实现种类的识别。在图像修补场景下，和AIGC模型结合，能够实现高效、逼真的的图像编辑效果。

大模型的智能水平保证了其输出结果的可靠性，同时也带来了不确定性。不管是大语言模型或者图像大模型，都需通过人控制模型的输入，从而确保模型的输出符合预期。因此，对模型输入的控制也成为了驾驭大模型的一大挑战，这一操作被称为提示（prompt）。2023年以来，提示工程或者提示工程师已经成为了不少公司招聘的香饽饽，可见大家使用大模型的需求强烈，但是急需更多能有效驾驭大模型的专家们。这里需要说明的是，提升是一种引导机制，而不是训练。在用户不断输入提示引导模型得到预期结果的整个过程，是训练完成的模型推理流程。这个流程给了用户“驯化”的感受，但本质上未对模型进行训练操作。

从AI赋能到场景落地

AI赋能的概念始于第一波浪潮，蓬勃发展于目前的第二波浪潮中，然而在喧嚣之下也显露着场景难以落地的尴尬。

在工业场景中，数据的客观存在形式是这样的——场景（图像）数据极其丰富且多样化、技术文档以文字形式记录的也很多，但是语音信息几乎很少用到。人们可以在家里通过语音控制智能助手关闭或打开电器，但是在工地或工厂中，这样的交互方式在客观上其实是难以实现的。因此，单一的大语言模型可能不一定能在工业场景中找到合适的用武之地。

2023年8月，何恺明博士在香港中文大学的讲座中曾表达了他对大模型的理解，其中有两个重点：第一，解决通用问题的基础大模型和解决各领域问题的专家大模型都是发展的趋势；第二，和来自人类智慧的语言相比，图像则来自自然界，且图像处理任务的多样性和复杂性大大提升。如此看来，创造面向工业某个场景的多模态大模型是必然趋势，当然这不是一个简单的任务。

然而，在过去的十年间，各行各业都把信息化平台开发当作一种“标配”，当然平台上也有AI算法的嵌入。时至今日，或许大家需要换一个角度思考问题——软硬件协同。

人工智能的核心是算法，但算法的载体可以不仅是软件平台，也可以是硬件设备。AGV、机械臂、复合机器人、机器狗等多种与工业或生活场景交互的设备控制算法，已经发展到相对成熟的阶段，人工智能的加入给了它们眼睛和大脑，让机械设备作为手和脚实现更加灵活和自由的运动，“具身智能”的概念由此而来。下图是美国斯坦福大学李飞飞教授团队的学术研发成果。机械臂结合ChatGPT算法，能和可识别的对象交互，也能把不可识别的对象判断为机械臂路径规划中需要躲避的障碍物。有了眼和脑的机械臂，呈现出了惊人的智能水平。

人工智能的两波浪潮，反映出了科技日新月异的变化节奏，同时也让人类在审视自我时敏锐地感知到了时代的剧变。

AI赋能下的相关产业发展，紧密依赖于这一技术和理念的飞速迭代。一波波浪潮汹涌而来，既能承托起一批批勇敢的逐浪者，也会洗刷走一批批失败的淘汰者，唯有用剧烈发展的时代去激励内在的变革，才能永远成为争流的船舸，逐浪向前。

本文刊载 / 《数智视界》杂志

2023年第4期总第27期

作者 / 林方正

作者单位 / 上海微亿智造科技有限公司

编辑 / 裴小吟

美编 / 赵雯

审校 / 李天颖裴小吟廖玲

联系人：李天颖

联系邮箱：xmt@bridgecn.org

联系电话：13552183635