打开网易新闻 查看精彩图片

以前的做法大多数个性化定制,一个一个项目啃下来,但现在业内提出了一种新的方式,将算法流程标准化,引入行业工程师的角色,让算法生产有着明确的分工协作。

文|游勇

编|赵艳秋

“AI这个行业今天仍然处于非常初级的阶段。”11月10日,旷视研究院算法量产负责人周而进说,初级的背后包括行业分工非常不明确,作坊式生产,这也意味着落地时依赖能力强的算法研究员。

作为AI领域最核心的算法,在过去几年虽然被频繁提及,但算法量产落地难一直困扰着业界。

以前的做法大多数个性化定制,一个一个项目啃下来,但现在业内提出了一种新的方式,将算法流程标准化,引入行业工程师的角色,让算法生产有着明确的分工协作。

01

算法落地面临五大挑战

算法量产遇到了不少客观的挑战。

一是行业数据匮乏。这个数据不是指图片、音视频等数据,而是有行业知识和经验的数据。“如果没有这个行业的Know how,也就没有办法高效地获得行业数据。”周而进说。

二是算法的通用性不够。不太可能一个算法覆盖全部场景。一方面大家希望算法尽可能强大和稳定,但一个算法无法覆盖全部场景,在实际落地时往往会遇到很多算法训练时意想不到的情况。

三是IoT设备繁杂。算法需要以带算力的硬件设备作为载体,比如计算盒子、服务器、摄像头等。这些设备里的芯片、体系结构、传感器和通信设备千差万别,算法要去适配,是一个巨大的工作量和成本。

四是Software2.0(依赖数据而不是逻辑进行决策的一种编程方式)还不成熟。”我们觉得是未来有一种新的市场模式,这个模式把算法训练、人工智能融入进软件工程里面。“但这个概念落地的时候遇到一个很大的挑战,如何做到可维护、可改进。与代码打补丁不同,算法改进不是加一两行代码就能解决,需要重新采集数据、训练模型,重新做模型的部署,这是一套非常复杂的过程。

五是算法质量参差不齐影响了客户认知。千行百业的不同需求,都有各种算法供应商在提供解决方案。但算法目前仍然是高度非标准化。效果好坏有非常多的影响因素,包括数据量、模型选择等,这种参差不齐的状况下,使得客户认为算法能解决的问题很少,从而给行业带来错误认知。

“大规模的算法落地本身是一个系统问题,真正难点在于这个系统本身的复杂性。”周而进说,算法落地很难单点突破,需要对这个复杂系统有全面的建模。

02

大模型并不万能

行业早期的算法落地非常依赖算法研究员的素质。

旷视前期采用了最原始的做法:定制化服务,它需要招聘更多的算法研究员,一个一个项目解决。事实上,绝大部分算法生产模式都在这么做,但问题在于,定制化的成本高,很难招到这么多优秀的研究员,而且项目的质量取决于个人。

靠个体的经验和能力让算法落地,就意味着,不光需要很多优秀的算法研究员,也让这种做法存在诸多的不确定性,因为个体差异非常大。

这几年,AI行业兴起了大模型热潮,大炼模型,炼大模型。

比如百度有文兴大模型,阿里有通义大模型,浪潮有源大模型,英伟达有Megatron-LM,OpenAI有GPT-3,参数规模都达数千亿。所谓大模型,就是把很多共性的场景,通过投喂大量的数据,训练出一个能复用的模型。

这种做法需要很大的算力和投入,泛化性很好,比如桌子上的物体检测,通用大模型可以做得很好。

但大模型并非没有弊端。“在实际落地过程当中这仍然是不够的。”周而进说,大模型仍然面临解决具体场景需求优化的问题。比如大模型需要大算力,如何将模型轻量化,以便低功耗地运行在各种设备上。而且,算法落地并不是一开始就非常完美,需要在场景中不断的演进和迭代。

03

标准化或许是关键

“AI这个行业今天仍然处于非常初级的阶段。”周而进说,包括行业分工非常不明确,作坊式生产,依赖能力强的算法研究员。

旷视的做法是把每一个模块解耦,把算法涉及的每个环节进行标准化,包括数据生产标准化、算法模型标准化、推理框架标准化。

比如算法模型里的参数有哪些,优化策略有哪些;比如所有的芯片有各自的体系结构,标准化可以做硬件解耦的算法定义,使得实现业务逻辑时不需要关心底层的硬件结构。

这也是旷视坚持的算法定义硬件的理念,“算法对传感器到底需要提供什么样的信息和输入,提出了要求,甚至本质性地改造了传感器的形态和样式。”旷视研究院计算摄影负责人范浩强曾说。在AI规模化落地的场景里,合适的硬件载体非常关键。

而且,只有标准化并且将模块解耦之后,人才结构和人员配置才能够匹配,形成独立工种。

这也意味着,千行百业的知识不是靠算法研究员一个个去学,而是让行业本身的工程师或者从业者加入到算法生产的过程中,最终输出有行业认知的算法模型。

比如煤炭行业的工程师,不用去搞懂各种各样的算法模型,只要定义好需要什么东西,任务是什么,然后模型选择由算法研究员以自动化推荐的形式替代。

旷视提出的研发矩阵是5:3:2,即5个行业工程师基于AIS算法生产平台进行相应的业务交付,3个算法研究员聚焦于算法的创新与探索,2个工程师不断打磨相应的基础设施并进行AI生产力工具的开发。这一团队阵型,既满足了解决现有问题的需求,同时也能不断自我提升,推动AIoT时代所需的AI能力进化。

“算法研究员不要再专注做一个一个项目,真正应该做的是通用的普适型的技术,拿它通过解耦的系统辐射到各行各业里面去。”周而进透露,旷视有几百名研究员,绝大部分研究员都在做大模型研发、模型量化、模型蒸馏、Pipeline逻辑设计等工作。

如今,旷视也在引入没有AI技术背景的人直接参与算法生产。换句话说,让专业的人做专业的事。这意味着,不需要一个一个项目堆人去啃下来。

为此,旷视搭建了适配算法量产的基础设施——算法生产平台AIS(AI Service)。它基于旷视Brain++体系,构建了一套覆盖数据处理、模型训练、性能分析调优、推理部署测试等算法生产全链路的零代码、自动化的生产力工具平台。

目前,AIS平台可以支持100多种业务模型训练,最快2小时即可完成训练。同时,AIS的嵌入式管理平台已支持30种设备的管理,有效节省IoT设备的日常开发与维护成本。

不久前,旷视帮非物质文化遗产“建盏”做的防伪溯源系统里,就涉及非常多的算法,包括盏的定位、检测、质量判断,以及纹理的识别,这些借鉴了其他生物认证识别的经验。如果没有将这些知识集约到一起,又得重新研发一遍。

据悉,旷视每个季度会有成百上千个模型通过这个系统生产出来,而且都是经过各行各业不同算法测试所得到。“我们通过解耦和标准化的形式,在很多行业里都得到了顺利的落地。”周而进说。

打开网易新闻 查看精彩图片