英伟达吃透GPU红利，GeForce 256是伟大的起点？|cuda|geforce|gpu|全大核架构|显卡|英伟达

2024 年 8 月，国产游戏《黑神话：悟空》正式开售。作为近期热度最高的国产游戏，《黑神话》凭借出色的剧情发展、场景设计和配乐成功“出圈”，不仅游戏爱好者们“人手一份”，不少已经“戒游戏”的老玩家也选择趁机升级电脑，换张新显卡好好享受游戏。

尽管这种为了游戏而换显卡的行为看起来有“冲动消费”的意思，但回顾近几年的游戏史，我们不难发现，每次现象级游戏走火，同时也有大量玩家为此升级显卡。比如用丰富游戏性推动 GTX 1060 显卡的《PUBG》和《守望先锋》，用出色营销和画质推动 RTX 时代的《赛博朋克 2077》，成为 RTX 4060“带货王”的《Apex》。可以说每一款成功游戏的背后，都有一张“现象级 N 卡”。

图片来源：英伟达

那么问题也随之而来——英伟达第一张游戏显卡面世时，游戏行业是怎样的呢？

1999 年，英伟达发布了其第一张游戏显卡——GeForce 256。但在 GeForce 256 发布之前，市场上已经存在多个显卡（GPU）品牌，如 3dfx 的 Voodoo（巫毒）系列、Matrox（迈创）、S3 Graphics、ATI 的 Rage 系列。

和现代的 GPU 一样，这些 GPU 同样基于 3D 加速技术，但可惜的是，这些 GPU 产品缺乏统一的 3D 加速制式。这意味着游戏开发者必须针对不同显卡优化游戏，显著增加了开发成本和难度。此外受产品性能的限制，这些 GPU 也无法支撑复杂的 3D 游戏。

与此同时，《古墓丽影》、《雷神之锤2》、《星际争霸》等游戏的流行也推动了玩家对 3D 游戏的期望。也就在这时，英伟达 GeForce 256 出现了。

GPU计算爆发，都有哪些先行者？

GeForce 256 是全球首款被称为 GPU 的产品，源于其首次将图形处理的多个功能集成于单一芯片，这一行为定义了 GPU 这一概念，同时也将复杂的 3D 渲染任务从 CPU 中解放出来，赋予 GPU 专门的计算职责。从 GPU 的历史进程来看，这也为后来 GPU 的广泛应用奠定了基础。

图片来源：英伟达

此外，GeForce 256 也将 T&L（Transform & Lighting、变换与光照）硬件加速集成到 GPU 中，使 3D 场景的变换和光照计算由 GPU 专门负责。这是图形处理史上的重大突破，以前这类计算任务通常由 CPU 执行，不仅效率低下，而且限制了游戏画面的表现力。借助 GeForce 256，游戏画面的复杂性和细节大幅提升，推动了 3D 游戏时代的到来。

而且 GeForce 256 出色的性能也将 GPU 这一概念带到游戏行业之外。别着急，此时的英伟达还没拿出 CUDA 这种改变 GPU 行业生态的大杀器。但 GeForce 256 出色的性能，确实为 GPU 在科学计算、金融分析等领域的应用奠定了基础。

如果说 GeForce 256 开启了 GPU 图形运算的时代，那英伟达在 2008 年发布的 GeForce 8800 GTX，则真正解放了 GPU 的性能。很显然这张显卡的性能放在现在早已不值一提，但这张显卡上，英伟达提出了 CUDA（统一计算架构）这一概念。

CUDA 的出现让 GPU 不仅可以用来处理图形运算，还可以用来执行、加速基于 CUDA 的通用计算，让电脑成为真正的通用工具。

图片来源：英伟达

而在提出了 CUDA 后，英伟达也在 2018 年进一步对 GPU 的算力进行细化，引入了 RT Core、Tensor Core 的概念，让光线追踪和专门的 ML 计算成为可能——Tensor Core 通过高效执行大规模矩阵运算，显著加快了 AI 模型的训练和执行速度。

根据英伟达的介绍，现阶段 RTX AI 已经对 10 种不同的 AI 场景实现覆盖，包括游戏、影视、自动驾驶和科学计算等领域。深受英伟达用户喜爱、可以显著提高游戏 FPS 的 DLSS，就基于 Tensor Core 来实现，可以说是广大游戏玩家最早接触到的真 AI 用例了。

图片来源：英伟达

在影视制作领域，RTX AI 加速渲染速度，使复杂的光线和反射效果在短时间内完成，从而缩短了制作周期。在自动驾驶方面，RTX GPU 处理大量图像和传感器数据，支持实时决策，提高车辆的安全性与精准性。此外，AI 还用于医疗影像处理、金融预测和科学模拟，加速数据分析和预测模型的训练。

不夸张的说，RTX AI 的出现不仅推动了高端视觉效果和 AI 计算的融合，还降低了企业使用 AI 的门槛。它正逐渐成为各行业提升效率、创新业务的关键引擎，引领未来技术的发展潮流。

GPU计算驱动AI，但AI计算不全靠GPU

但话说回来，尽管 GPU 的算力提升让 AI 能以惊人的速度普及，现阶段英伟达确实是 AI 算力的代名词，以及个人 AI 计算机的唯一选择。但这是否意味着美欧强劲 GPU 的设备，就无缘 AI 时代呢？

答案是否定的。

在 2024 云栖大会上，阿里集团 CEO、阿里智能云董事长兼 CEO 吴泳铭表示：

生成式 AI 改变计算架构，从 CPU 主导的计算体系到 GPU 主导的 AI 计算迁移。AI 时代将是“GPU 算力为主，CPU 算力为辅”的计算模式。2024 年市场新增算力，超过 50% 的需求 AI 驱动产生，这一趋势将持续扩大。

不可否认，即使是阿里云提供的 AI 云算力，背后也主要由 GPU 驱动。但从另一个方面想，将 GPU 算力集中在云端，配合设备本地的 CPU、NPU 进行混合 AI 运算，其实也不失为一个好主意。

首先，这可以缓解算力瓶颈，提升计算灵活性。GPU 在 AI 计算中的核心地位毋庸置疑，但个人开发者和消费者通常难以承受购买和维护大量 GPU 的成本。将 GPU 算力集中在云端，允许用户按需租用云 GPU 资源，可以避免一次性高额投入。这种模式也提供了极大的弹性，可根据任务需要随时扩展或缩减算力。

其次，许多终端设备受限于尺寸和功耗，无法配备高性能 GPU。通过在云端完成复杂的 AI 运算，并将结果传输至本地设备执行简单任务，设备可以保持轻量化且功耗低。这种混合计算模式，特别适合边缘设备和移动终端。

图片来源：英伟达

而且在本地 CPU 和 NPU 的配合下，云 GPU 的计算能力可以得到最大化利用：设备本地的 NPU 可以快速处理延迟敏感的任务，如语音识别和实时图像分析；而复杂的模型训练和推理则交由云端 GPU 完成。这种模式有效缩短了计算响应时间，提升了用户体验。

短时间来看，英伟达在 AI 算力市场的优势仍然巨大，但是长远来看，群狼环伺之下的 AI 市场，英伟达双拳难敌四手。诸如移动 PC、智能终端等英伟达的弱势市场，很快就会被其他厂商瓜分干净，而关键的服务器市场也并非高枕无忧，AMD 的 MI300 系列 AI 显卡份额增长迅速，已经足够引起英伟达的警觉。

不过，竞争所带来的创新与发展，才是科技进步的关键，随着 AI 领域的竞争加剧，实际上也在推动 AI 成本的下降，让 AI 技术得到更快、更广泛的应用。就像吴泳铭说的那样：