最近两年,大模型与算力交替演绎的正反馈效应,让人工智能的热潮冲上云霄。人们似乎看到了一座通天巨塔,数智化的王冠在塔顶熠熠生辉。
先是ChatGPT引爆生成式AI,高性能GPU一时洛阳纸贵,“大力出奇迹”的算力建设模式备受推崇;接着是算力基础设施驱动大模型训练和推理迈上更高台阶,模型参数量从千亿升至万亿,训练数据量从TB达到PB,文本、语音、视觉等多模态协同进化,ToB和ToC端的AI应用纷纷涌现;再后来是大模型迅猛发展刺激算力“军备竞赛”不断升级,加上复杂不确定性因素的影响,多样化算力的博弈进入白热化状态。
从AI产业演进的角度看,大模型千帆竞渡、底层算力百花齐放恰是市场活力的源泉,但由此带来的挑战亦不容忽视:各家硬件架构、指令集的千差万别以及算子库的独立实现,导致整个生态系统割裂且难以形成强大合力。这会显著抬高大模型开发与应用的门槛,曾经的正反馈效应很可能变成负反馈梦魇。
尤值一提的是,在整体割裂的生态系统中还存在“一家独大”的体系。目前,由GPU巨头主导的CUDA生态在算子库、开发工具链和芯片驱动等各个层次“自成一统”,占据绝对的领先地位,而新兴的各种AI芯片生态都难成气候——受限于芯片架构的差异和底层的封闭属性,生态适配的难度似比登天。
显而易见,重建更具开放性、包容性的AI系统生态迫在眉睫,通天的“巴别塔”离不开中间层软硬件平台的鼎力支撑。在衔接底层算力、大模型开发与上层应用的诸多环节中,核心计算框架和通用算子库无疑扮演着“双子星”的角色,对构建统一的AI系统生态至关重要。
近日,浪潮信息与智源研究院达成战略合作协议,智源Triton算子库FlagGems正式接入浪潮信息EPAI企业大模型开发平台,与元脑企智核心计算框架TensorGlue深度融合,助力企业实现更快速、广泛、高效的多元算力适配,为打造全新的AI系统生态开路领航。
基于开放理念的系统创新是AI生态进化的原动力
在热带雨林中,也存在不少自生自灭的“子系统”,而维系整个雨林生态繁荣的基石,则是土地下盘桓延伸、彼此连接的巨型根系。它们打破了各自为战的“小圈子”,建立起开放、共荣的良性生态。
为了应对多元多模带来的机遇与挑战,基于开源开放、系统创新理念进行积极实践,堪称改变生态割裂现状的最佳路径。据浪潮信息高级副总裁刘军透露:在服务器领域,浪潮信息倡导并践行的OAM(开放加速器规范)、OCM(开放计算模组规范)得到业界热烈响应,90%以上的高端芯片厂商都已支持OAM规范,其与OCM规范联手更有助于统一算力底座的真正成型。
当然,解决从芯片到服务器系统的多元算力问题只是万里长征第一步,继续向上扫除大模型开发和应用中的各种障碍,才是难度系数更高的任务。元脑企智EPAI因此应运而生,它为企业AI大模型落地构建高效、易用、安全的端到端开发平台,可实现大模型应用在跨算力平台上的无感迁移,降低生态适配与试错成本。
毋庸置疑,中间平台发挥着承上启下的关键作用,而核心计算框架更是纲举目张的枢纽。作为EPAI平台的核心计算框架,TensorGlue向上兼容 PyTorch、Paddle-Paddle、TensorFlow、vllm等常用的深度学习框架,向下适配多元算力。据了解,TensorGlue已支持10多种开源大模型的微调和推理、20+计算芯片及10+计算框架的有效适配,为催生AI系统新生态创造了必要条件。
更为重要的是,TensorGlue能实现多元算力芯片的统一运行及多板卡兼容、算子的统一接口和算子库对接以及板卡的模型优化,让开发人员可以在EPAI平台上专注于创新AI应用的开发。这不仅为客户节省大量迁移、适配和优化的时间,而且基于高效协同计算帮助客户大幅提升业务运行的效率和效果。当多元异构的软硬件差异不再是客户的烦恼,AI系统生态的春天就将来临。
开源通用算子库加速AI系统生态蜕变
如果说端到端的大模型开发平台和核心计算框架为应对多元多模的挑战奠定了坚实基础,那么开创先河的开源通用算子库则是改变AI系统生态混沌局面的重磅利器。
在AI软硬件基础底座中,编译器和算子库都是不可或缺的角色,能为大模型各种类型计算负载的高效运行保驾护航。具体到技术路线选择,过往主要有两个方向:一是统一中间语言,提供更自由的表达能力和灵活的优化空间,但其显著依赖硬件架构的底层信息,要求相关厂商的深度参与和高度协作;二是统一算子接口,可对上层保持良好的一致性,对下层则要求厂商各自开发算子库,无法确保一致的算子特性。
为了克服上述痛点,统一的开源算子库日益受到青睐。其能在厂商之间做到源码共享,省去重复开发的成本且保障一致的算子实现,并可由厂商对编译器进行个性化适配,最大程度发挥硬件的性能优势。智源研究院于2024年6月推出的开源通用算子库FlagGems即是采用全新技术路线的典型代表,为AI系统生态的蜕变铺平了道路。
值得关注的是,FlagGems基于Triton语言进行开发,并在Triton生态开源开放的基础上,为不同类型AI芯片提供开源、统一且高效的算子层生态接入方案。FlagGems以满足大模型的计算需求为目标,利用Triton编译器的开源性和轻量级特性,开创出易于适配且性能卓越的算子实现路径,有助于改善大模型训练和推理的效能。
不难看出,开源通用算子库与核心计算框架在打通底层架构阻隔方面可谓殊途同归,二者双剑合璧有望驱动AI系统生态全面跃迁。从这个意义上讲,FlagGems与元脑企智EPAI平台的深度融合将开启新的纪元。正如智源研究院副院长兼总工程师林咏华所言:“双方如同精密的‘齿轮组’,确保大模型跨越硬件藩篱,在各类架构中顺滑运转,满足复杂的训练任务和实时性要求严苛的推理场景需求。”
在开源开放的汪洋大海中驶向AI新境界
站在更开阔的视角,浪潮信息与智源研究院的强强合作,再次证明了开源开放才是高科技领域迈向星辰大海的终极道路。无论是早期的PC打破大型机、小型机的垄断,还是后来的互联网开源社区大行其道,开源开放的路线都将信息化、数字化推向前所未有的新高度。
当命运的齿轮转到AI时代,开源开放依然释放出巨大能量。据不完全统计,市面上2/3的大模型都选择了开源,OAM、OCM等开放规范更得到产学研各界的充分认可。在大模型加速落地的关键节点,FlagGems开源通用算子库融入元脑企智EPAI平台,保障大模型应用开发能使用高性能、跨硬件、多框架兼容的算子集合,顺利跨越各类鸿沟,谱写了开源开放的新篇章。
这是一个崭新的起点,沿着开源开放的航道,可以到达数智新世界的彼岸。未来,浪潮信息将与智源研究院携手并进,持续全面拥抱硬件开放与软件开源,共同推动多元多模产业的发展,打造更加高效、灵活、开放的AI系统新生态。
这也是一条看不到天花板的超级赛道。根据Gartner的预测,AI Infra产业尚处于高速增长的初期阶段,今后3~5年各细分市场空间将保持30%+的增速,而开源开放是AI Infra最强劲的助推器。笔者也做个小预测——2025年,核心计算框架、通用算子库等与AI Infra相关的关键词,也许会替代算力、大模型等热词,成为“霸屏”的主角。倘若果真如此,AI应用落地就指日可待。
作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。
关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。
—— 越看越精彩 ——
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。
热门跟贴