华人团队实现AI自动寻优，矩阵乘法核心首超CUDA闭源库|cuda|大模型|编程|速度|闭源库

来源：市场资讯

（来源：DeepTech深科技）

“矩阵乘法是英伟达 CUDA 生态最核心的护城河之一。而我们打造的 CUDA-L2 在大规模、系统性的评测中，超越英伟达针对该核心算子的闭源优化方案。我们不仅实现了超越，而且将方法开源，这对于打破技术壁垒具有标志性意义。”DeepReinforce 公司工程师苏松乔告诉 DeepTech。

近日，苏松乔和合作者打造出一款名为 CUDA-L2 的智能系统，通过结合 AI 模型和强化学习，成功造出能以极高速度在 GPU 上运行的矩阵乘法核心程序。CUDA-L2 能够自动搜索成千上万种可能的程序编写方式，以实际运行速度作为奖励，引导 AI 找到最优解。

在 A100 这款高性能 GPU 上，它生成的程序比当今业界最优秀的官方库比如英伟达的 cuBLAS 还要快上 19%，在模拟真实服务器环境的测试中，速度优势更是扩大到 26%。这意味着未来的 AI 应用，从实时对话到复杂科学计算，都可能因此变得更快和更高效。

苏松乔表示：“这项成果的应用前景非常直接。大模型超过一半的 GPU 计算时间都花在矩阵乘法上。因此，矩阵乘法算子的性能提升，将直接、成比例地提升大模型的整体运行效率。理论上，若矩阵乘法速度提升 10%，大模型的效率可提升约 5%。”

他和合作者曾用 ChatGPT 粗略估算，矩阵乘法 10% 的性能提升，可能为全球 GDP 带来约 4,400 亿美元的增长，相当于全球 GDP 的 0.4%。虽然这只是估算，但足以说明其底层基础性技术带来的巨大经济影响力。实际应用上，只需将现有大模型框架中的矩阵乘法计算替换为我们更快的实现即可。

在 GPU 上高效执行矩阵乘法到底有多难？

矩阵乘法是 AI 模型中最基础、最耗时的计算操作之一。过去，优化这类计算程序是顶级工程师的专属领域，需要针对不同的问题规模和不同硬件进行极其复杂且耗时的调整。

我们可以把矩阵乘法想象为一个排列整齐的 Excel 表格。矩阵乘法就是一种特殊的规则，用于将两个这样的表格合并从而生成一个全新的表格。这个操作在 AI 领域几乎无处不在，几乎是所有智能计算的基石。无论是让 AI 生成一幅画还是理解一句话，亦或是推荐一个视频，背后都有海量的矩阵乘法在默默工作。

然而，在 GPU 上高效执行这个矩阵乘法非常困难。GPU 就像一台拥有成千上万个小型计算核心的超级引擎，如何把计算任务合理分给这些核心，如何让数据在高速但是容量有限的记忆单元之间流畅移动，都需要精秒的设计，同时不同大小的表格需要完全不同的优化策略。

当 AI 遇见强化学习

传统上，设计这些高速计算程序也就是内核，是人类工程师所要面临的艰巨任务之一。但是本次 CUDA-L2 系统引入了一个全新的设计师：即一个经过海量代码训练的大模型。这个模型从一开始就懂得很多编程知识，可谓非常的博学。

但是，光有博学还不够，关键是要学会优化。CUDA-L2 采用了强化学习的方法来开展训练。强化学习不会告诉模型每一步具体怎么走，而是设置一个目标让模型去尝试各种动作。

当它做出一个动作导致分数增加时，它就得到了奖励，从而知道这个动作是好的；反之，分数减少则是一种惩罚。通过多次的尝试，模型就能自己摸索出来通关的最佳策略。

CUDA-L2 的训练过程也是如此。模型尝试生成不同的计算程序，系统会实际地运行它们，并使用运行速度作为奖励分数。同时，程序如果出错或者写得太冗长也会被扣分。就这样，在数百万次的尝试和学习中国，模型逐渐掌握了编写超高速矩阵乘法程序的秘籍。它甚至能够参考详细的硬件性能报告，从内存吞吐量、计算单元利用率等数据中学习如何调整程序。