打开网易新闻 查看精彩图片

2016年4月5日,英伟达(Nvidia)发布Tesla P100加速器时,没人想到这块芯片会改写整个科技行业的权力格局。黄仁勋在发布会上放话,Pascal架构将帮助人类攻克癌症、搞懂气候变化、造出智能机器——当时听起来像典型的硅谷吹牛,但9年后英伟达市值冲破3万亿美元,这句话成了科技史上最值钱的预言之一。

「12倍性能提升」是怎么算出来的

「12倍性能提升」是怎么算出来的

P100的纸面参数放在今天依然夸张:160亿晶体管(原文15.3 billion,按行业惯例取整为160亿)、16nm FinFET工艺、720GB/s显存带宽。英伟达官方宣称,相比上一代Maxwell架构,神经网络训练性能提升超过12倍。

这个数字的含金量在于,它不是跑分软件的虚荣指标,而是数据中心真金白银的电费账单。P100首次引入NVLink互联技术,8块GPU能像搭积木一样扩展,显存带宽用上了HBM2高带宽显存——这些技术后来成了AI训练集群的标准配置。

黄仁勋当时把P100定位为「最先进的大规模数据中心加速器」,瞄准的是超大规模云计算客户,而非游戏玩家。这个定位的微妙之处在于:英伟达在赌一个当时还不存在的市场。

2016年的深度学习浪潮刚刚起步,AlphaGo击败李世石的新闻热度还没过,OpenAI还是马斯克和奥特曼刚成立的非营利组织。英伟达选择All in AI基础设施,相当于在淘金热爆发前卖铲子——而且只卖最贵的铲子。

游戏玩家捡到的「遗产」

游戏玩家捡到的「遗产」

数据中心的故事讲完了,消费级市场才是Pascal架构真正刷存在感的地方。GTX 1080 Ti和GTX 1060两块卡,定义了整整一代PC玩家的游戏体验。

GTX 1080 Ti发布于2017年3月,3584个CUDA核心、11GB GDDR5X显存,性能碾压前代旗舰Titan X,价格却砍到699美元。这块卡被玩家戏称为「战术核显卡」的精神续作——不是因为发热量,而是因为性价比太过残暴,让竞争对手AMD的Vega架构还没发布就陷入被动。

更离谱的是GTX 1060。这块2016年7月发布的甜点卡,6GB显存版本在Steam硬件调查榜单上霸榜超过5年。2025年的今天,它居然还能跑《红色沙漠》(Crimson Desert)的最低配置——一款原定2026年发售的开放世界大作。9年前的中端卡能战未来,这种事在显卡历史上屈指可数。

Pascal架构的游戏卡成功,本质是技术下放的红利。16nm工艺让晶体管密度翻倍,功耗控制大幅改善,英伟达把省下来的成本砸进了定价策略。GTX 1060首发价249美元,比前代GTX 960贵50美元,但性能提升接近70%。玩家用脚投票,这块卡最终出货量超过2500万块。

架构背后的「五个突破」

架构背后的「五个突破」

英伟达在P100发布会上总结了Pascal架构的五大技术突破。这些术语当时听着像营销话术,现在回头看全是伏笔。

第一项是16nm FinFET工艺,让单芯片塞进160亿晶体管成为可能。作为对比,2014年的Maxwell旗舰GTX 980 Ti只有80亿晶体管,功耗却更高。制程红利直接转化为性能功耗比,这是数据中心客户买单的核心逻辑。

第二项是HBM2显存堆叠,用硅通孔技术把显存和GPU封装在一起。720GB/s的带宽在2016年属于外星科技,作为对比,GDDR5X的极限大概在500GB/s左右。高带宽对AI训练至关重要——矩阵运算需要疯狂吞吐数据,显存瓶颈比算力瓶颈更致命。

第三项是NVLink互联,替代了老旧的PCIe。单条NVLink带宽20GB/s,一块P100有4条,8卡并联时GPU之间能直接交换数据,不用绕道CPU。这个设计后来被复制到DGX-1超级计算机,再演变成今天Blackwell架构的NVLink Switch。

第四项是统一内存架构,让CPU和GPU共享寻址空间。对程序员来说,这意味着少写一堆数据搬运代码。对英伟达来说,这是把GPU从「图形加速器」重新定义为「通用并行处理器」的关键一步。

第五项是AI专用指令集,支持混合精度计算。FP16半精度运算的吞吐量是FP32单精度的2倍,这对深度学习训练简直是量身定制——神经网络不需要那么高的数值精度,但极度渴望并行吞吐量。

从P100到H100:同一条河流

从P100到H100:同一条河流

2016年押注AI的决策,让英伟达在2022年ChatGPT爆发时成了唯一供应商。OpenAI训练GPT-3用了1万块V100,GPT-4据传用了2.5万块A100——这些芯片的架构血脉,都能追溯到Pascal。

Pascal首次引入的Tensor Core雏形、NVLink互联、混合精度计算,在后续架构中被不断放大。Volta架构加了正式版Tensor Core,Ampere架构支持稀疏计算加速,Hopper架构引入Transformer Engine——但底层的设计哲学没变:用专用硬件榨干矩阵运算的每一滴效率。

黄仁勋在2016年的预言,「找到癌症疗法、理解气候变化、建造智能机器」,三句话里有两句已经兑现。AI蛋白质折叠预测(AlphaFold)加速了新药研发,气候模型分辨率提升到公里级,至于「智能机器」——你手机里的ChatGPT就是答案。

唯一没料到的是速度。P100的12倍性能提升用了两年迭代,而2022到2024年,大模型算力需求每6个月翻10倍。英伟达的股价曲线,几乎完美复刻了这个斜率。

那代玩家的集体记忆

那代玩家的集体记忆

对普通用户来说,Pascal架构的意义更朴素:它是最后一代让人「买得起旗舰」的显卡时代。

GTX 1080 Ti的699美元定价,在2017年属于「咬咬牙能上」的区间。2024年的RTX 4090首发价1599美元,性能提升当然可观,但价格曲线比算力曲线陡峭得多。Steam硬件调查显示,GTX 1060至今仍有超过5%的占有率,而RTX 40系合计不到15%——不是玩家不想换,是换代成本已经质变。

GTX 1060能撑到2026年这件事本身,就是Pascal架构设计冗余度的证明。英伟达当年给这块甜点卡塞进了1280个CUDA核心,显存控制器完整保留192bit位宽,这些「浪费」在多年后成了延寿的资本。

有玩家在Reddit回忆,自己的GTX 1060从《巫师3》打到《艾尔登法环》,再到《黑神话:悟空》,中间只换过一次硅脂。这种产品寿命在消费电子领域近乎奇迹,也让「等等党」这个词有了实体寄托。

10年后的今天,P100的物理形态早已退役,但Pascal的设计基因仍在英伟达最新芯片里流动。当你用ChatGPT写周报、用Midjourney生成头像、或者单纯在Steam上启动一款新游戏时,某种程度上都在调用2016年4月5日那天的技术遗产。

黄仁勋当年说的「建造智能机器」,现在回头看是个过于保守的描述——他真正建造的是一台印钞机,而Pascal是塞进投币口的第一枚硬币。

下一个10年,当AI代理(AI Agent)开始自主决策、当机器人走出工厂进入家庭,我们会不会再次发现某块2024年的芯片,像GTX 1060一样被强行续命到2035年?