6月1日,在2022智源大会“人工智能新基建”专题论坛上,北京智源人工智能研究院院长、北京大学教授黄铁军发表了题为《大模型时代的人工智能基础设施》的专题报告。

打开网易新闻 查看精彩图片

报告中,黄院长介绍了大模型在人工智能生态中的重要地位,指出基础模型是未来人工智能生态之[腰杆],向下带动基础软硬件树大根深,向上支撑智能应用枝繁叶茂;此外,他还介绍了智源研究院建设「九鼎」智算平台的初衷和意义,畅想了人工智能时代信息产业的商业模式。

以下是黄铁军院长演讲内容的精华整理:

大模型时代到来

众所周知,当前人工智能发展有三条主要技术路线:

深度学习方法与大数据训练相结合,实现信息智能

以强化学习为核心,构建环境模型,实现具身智能

解析模拟生物神经系统结构和机理,实现类脑智能

以上实现智能的三种范式都有一个共同需求,即算力。人工智能不是一套公式,是基于算力不断训练和迭代的结果,训练是人工智能发展不可或缺的支撑。

在过去,绝大部分人工智能企业和研究机构都遵循算法、算力和数据三位一体的研究范式:以一定的算力和数据为基础,使用开源算法框架训练智能模型。如今这种情况发生根本性变化,一个显著的特征是:模型训练算力增长脱离摩尔定律,可以称之为人工智能时代“模型定律”。

半导体芯片领域有一条著名的「摩尔定律」延续了 50 余年:在价格不变的情况下,集成电路上可容纳的元器件的数目,约每隔 18-24 个月翻一番,性能也将提升一倍。从某种意义上说,「摩尔定律」就是信息产业的心跳节奏。

在过去十年中,这一节奏陡然加快,人工智能模型训练需要的算力 1 年翻了 10 番,而摩尔定律是2年翻一番。人工智能发展急速向前拉动算力高速增长,如今兴起的大模型浪潮,就是带动算力发展的主力军。

在去年的智源大会上,智源研究院发布了当时全球规模最大、性能最强的智能模型「悟道2.0」,这项工作由 100 余位科学家历经 8 个多月共同打造。在此之后,国内外更多大模型相关成果如雨后春笋般破土而出。

打开网易新闻 查看精彩图片

包括OpenAI、Google、微软、英伟达、百度、华为、阿里巴巴等企业巨头,清华、北大、UC Berkeley 等海内外院校,韩国、以色列等国家都推出了「大模型」。“大炼大模型”俨然已成为当前人工智能发展的主旋律。

但问题也随之而来:耗费巨大算力的大模型难道就会这样野蛮生长下去?没有任何产业只追求“性能”,而不考虑成本和可用性。我们认为同质化训练大模型不可能长久,大模型不在多,也不可能多,当务之急是构建一个“大模型生态”,这才是未来大模型运营服务和智能应用的强大基座。

大模型:人工智能生态之「腰杆」

大模型是人工智能领域发展的重要方向,人工智能之争最终是生态之争。人工智能生态的构建涉及「基础软硬件」、「基础模型」和「创新应用」三个层次。基础软硬件,也就是智能模型的底层芯片、算法和系统,是「根基」;创新应用建立在基础模型之上,以不同模型的叠加,满足多样化的应用场景。

打开网易新闻 查看精彩图片

换言之,基础模型向下可以带动基础软硬件发展,向上可以支撑智能应用枝繁叶茂,是人工智能生态的「腰杆」。只有腰杆硬了,人工智能发展才能根深叶茂:

以基础模型为桥梁,带动人工智能基础算法、云边端芯片和开源开放平台研发,构建自主可控的基础软硬件技术体系和汇融算力及数据资源的国家智算体系。同时,打造人工智能基础模型开源技术体系,助力产出规模和性能国际领先的模型,支撑国家安全、工农生产、社会治理、人民健康等应用创新和国际扩展。

大模型训练消耗巨大算力,造成巨大碳排放,不是健康可持续的长久之计。昨天科技部李萌副部长在致辞中强调:要减少同质化重复性的模型训练。那么如何实现?我认为应该静下心来关注模型背后的技术创新,比如算法体系是否先进,模型训练高不高效,而不是纷纷推出名称繁多但内核类似的各种大模型。总的来说,大模型时代,我们要抓住的核心是技术突破,不是再多个大模型的问题。

“科技创新2030”新一代人工智能重大科技项目专家组特别重视大模型发展,在科技部指导下提出大模型(或称基础模型)研究开发和应用生态建设工作应该分两个层次:

1. 创建公共数据集、工程测试等事务性、支撑性的工作。制定评估标准和计量指标,构建智能模型训练评估数据集、技术评估体系和评测基准与工具、技术集成验证和开源开放平台。

2. 关键技术研究。全国范围内的产、学、研机构开放性竞争,提出更智能、更可信、更高效的算法,开放竞争,开源迭代,形成既竞争又合作的基础模型创新体系和健康的生态。

由此产生的算法体系、训练技术和示范模型以开源开放方式提供给国内外应用。

大模型试验场:「九鼎」智算平台

打开网易新闻 查看精彩图片

昨天大会开幕式上,智源研究院总工程师林咏华发布了大型智算服务平台「九鼎」。该平台的核心目标之一是支撑通用智能大模型训练,助力AI for Science等前沿探索方向,为未来十年人工智能发展提供新型计算范式。

九鼎平台今年算力规模达到1000P,提供400Gbps高速互连能力的高性能环境,能够支持各种算法的验证和测试,拉动国产芯片的协同发展和持续优化。

在构建「九鼎」智算平台的过程中,智源研究院与华为、昆仑芯科技、海光信息、天数微芯、燧原科技等芯片企业,北京大学、清华大学、中科院计算所等科研团队共建「AI 芯片生态实验室」,通过大模型训练场景拉动芯片产业发展,共铸人工智能坚实的算力基础。

人工智能时代的商业模式

大模型将带来什么样的一个技术和产业形态?这是一个非常重要的问题。自18世纪以来,每一次技术革命都伴随着新的基础设施建设和完善。在第三次工业革命中,信息产业经历了「计算时代」、「网络时代」,正在步入「智能时代」。

以前「计算时代」的主要商业模式是卖产品;「网络时代」的主要商业模式是卖服务。现在,我们需要思考「智能时代」的商业模式是什么,算力、数据、算法如何在国家发展中更好地发挥作用?

我认为,在智能时代,人工智能的商业模式一定是“云化”,以云的形式随时随地向用户输送智力服务。从这个角度来讲,未来大模型,或者超大模型会出现多少个?我大胆地猜想,长期来看,全球范围内不会超过 3 个,2个可能性大,只有1个的情况几乎不可能。

我这样猜测,主要理由是真正部署的智能大模型必须具备「高智能性」、「高实时性」和「全知全能」的特性,可以像获取水、电、信息服务一样便捷。具体从应用、数据、算力、算法方面而言,它应具备以下特点:

应用层面:以数字化形式提供智能服务;

数据层面:能够获取全量数据,实时无差别面向全球提供服务;

算力层面:协同使用多个算力中心资源,24*7连续训练;

算法层面:以Linux模式建构大模型开源算法体系。

这是一个比电信运营商还要巨大的智力运营商,一般高校、科研机构和企业根本没有能力协调这些数据资源、调度这些算力进行全天候训练。此外,上述智能运营服务背后的技术有赖于全世界范围内的研究人员共同协作,构建大模型开源算法体系。

大模型发展追求最大数据、最强算力和最优质的开源算法,以训练出智商最高的超大模型,为全世界尽可能多的用户服务。从「大炼模型」走向「共炼大模型」,基于统一的运营框架汇集资源,提供更好的智能服务将成为主要趋势。

那么谁可以胜任这项工作?

在美国,可能性最大的是谷歌。谷歌通过搜索引擎、移动互联网、安卓系统收集了海量数据,拥有广大的移动端用户,其核心技术和专利储备也足够充分。其次是OpenAI+微软,人工智能新锐和传统信息产业巨头联手,将大模型技术与巨头的云服务结合,也有望成为美国的大模型运营商。

在中国,百度可以对标前者,华为可以对标后者,但也都有局限性。更大的可能是筹划国家级人工智能服务运营商,并以此拉动人工智能全局发展,就像电信运营商拉动了华为等企业发展一样。从计算机到互联网,再到移动互联网,我们没抓住生态,所以总是补短板,在智能时代,我们迫切需要抓住时代发展的新机遇,统筹数据,调度算力,组织起开源开放的算法体系,支撑国家级智能运营服务,发展国际智能服务。

总结

「大炼模型」时代已成为历史,国家对「碳排放」的要求也不允许同质化的「大炼大模型」。未来大模型不是一个产品,而是智能运营,要像供应水、电、气、信息一样提供源源不断的智力,回头看看电网、电信、互联网和移动互联网发展,就知道我们应该干什么了,人工智能的核心是生态建设和运营,这才是人工智能发展长久之计。

新一代人工智能「大模型」旗舰项目已经在技术上做了准备,布局算法的竞争合作、可信可靠的数据汇聚、成立中立机构进行模型的评估、测试、集成、验证、示范,结合新基建构筑算力互联和调度系统。

面向 2030 的目标,我们应该思考中国的大模型技术和产业生态如何布局,希望中国未来引领大模型技术的开源开放,支撑国家级的智力运营,通过开源开放的智能生态,服务国家发展,服务全球发展。