神秘不再 NVIDIA下一代GPU架构Pascal初探|GPU|初探|架构

原标题：神秘不再 NVIDIA下一代GPU架构Pascal初探

在两年前的2014 GTC大会上，NVIDIA更新了该公司的产品路线图，Maxwell架构原定的接班人从Volta更新为Pascal（帕斯卡），后者将采用3D内存技术，拥有Terabyte/s级别的内存带宽以及崭新的NVLink总线技术，对于许多一直关注GPU技术的人士来说，这些新技术无疑让人十分振奋的。

Pascal是NVIDIA引入GPU计算后的第五代GPU架构，但是按照NVIDIA自己总的架构代数划分，则属于第十一代，而对消费者而言，最简单的描述就是：这是他们即将就能买到的新显卡。

在 4 月 6 日召开的NVIDIA GTC2016 上，NVIDIA CEO黄仁勋进行的主题演讲首次向公众公布了基于Pascal的两款 GPU：Tesla P100和架构名尚不清楚的中端版Pascal。

其中，Tesla P100作为旗舰级产品，具备了Pascal架构的所有特性：

极高的性能：针对HPC、深度计算以及甚多GPU的应用场合

NVLink：NVIDIA独家的新高速总线，专门用于GPU的高速互连

HBM2：目前最快、容量最高的堆叠式内存技术

统一内存和计算抢占：可以显著改进编程模型

16 纳米 FinFET（鳍式场效应管）制程：可以让Pascal实现更多的特性、更快的性能以及改善能效比

全面提升的Pascal GP100微架构

按照目前的资料看，GP100是Tesla P100的微架构代号，这样的区分在过往并未出现过，例如GM200微架构对应的GPU加速器就没有Tesla M200这样的说法，出现这样的区分，也许是因为NVIDIA从这一代产品开始将GPU计算产品看做一个非常严肃（赚钱？）的产品看待。

事实上，“GPU加速器”这样的称呼也是首次在这次大会上频繁出现，NVIDIA不断提“加速器”的说法，其目的就是希望突出产品的计算性能而不再仅仅是图形处理器。

解读完名字后，就让我们进入干货阶段吧。

NVIDIA的GPU计算产品被称作Tesla，这是从第一代针对GPU计算的 G80（Tesla 8，当时的GPU微架构也叫Tesla）开始，NVIDIA将传统微架构意义上的内核称作 streaming multiprocessor，简称SM，SM对来自并行运行的众多线程的指令进行创建、管理、调度和执行，而“内核”这个称呼则被NVIDIA用作 SIMD 中单个处理单元，GPU厂商的这些术语即使到现在对许多业内人士来说也都是有点混乱的。

从计算的角度，SM虽然已经算是一个内核，当时从图形处理的角度，它只负责可编程计算部分，缺乏一些图形渲染的固定功能硬件，例如三角形 Setup（设置）、Tessellation（镶嵌）、纹理等单元。

NVIDIA将若干SM组织为一个被称作GPC（图形处理簇，更早的时候被称作 TPC，纹理处理簇，因为那时候还没在这个层级上引入硬件几何处理单元），GP100拥有10个GPC，每个GPC拥有6个SM，合计有60个SM，每个SM拥有64个CUDA Core（或者说64路SIMD）和16个纹理单元，所以CUDA Core一共有3840个，纹理单元有240个。

虽然GP100足本版本是3840 Cuda Core，或者说60个SM，NVIDIA公布的Tesla P100却只有3584 Cuda Core（56 个SM），这意味着至少第一波的Tesla P100是非足本的，有4个SM被保留作为冗余以提升产能。

内存带宽方面由于引入了HBM2，峰值带宽为720GB/s，这离HBM2的 1TB/s 略有差距，但是依然达到了Tesla M40的三倍。

Tesla P100有高达153亿个晶体管，面积达到610平方毫米，这是NVIDIA迄今为止最大的芯片，如此巨大的芯片，要实现足本版其成本会相当高，采用冗余后，就能提高良品率显著降低成本。

从上图可以直观的看到Tesla P100和前两代产品在SM层级方面的变化：

1、单个SM的 FP32 单元比Tesla M40减少一半、比1/3，但是SM数量显著提升，分别提升了2.73倍和1.33倍，而 FP32:FP64 单元比例则是显著飙升，从 K40 的1:3提升到1:2，在Tesla P100上一共有1792个双精度单元，类似的 FP32:FP64 比例之前只在 AMD 的 Hawaii 上出现。

2、在双精度性能方面，Tesla P100达到了5304（boost clock 模式下）GFLOPS，达到了Tesla K40的3.16倍，而Tesla M40双精度则因为本身是只强调单精度，其双精度性能只有213 GFLOPS，连CPU都不如。

3、Tesla P100的单精度性能达到10.6 TFLOPS，针对深度学习而新引入的硬件半精度（fp16）更是达到了21.2 TFLOPS。

4、纹理单元虽然比Tesla K40少了16个，但是凭借更高的频率，目前看到的纹理指标比Tesla K40要快大约58%。

5、HBM2的容量高达16GB，这个容量比HBM1大三倍，GPU计算的适应能力要广很多。

6、频率方面，Tesla P100比TeslaK40高69%、比Tesla M40高32%，结合规模上的提升，造就了其强悍的性能。

7、Tesla P100的底层每瓦双精度性能是 17.68 GFLOPS，Tesla K40和Tesla M40 分别是7.14 GFLOPS和0.85 GFLOPS，可以看出在Tesla P100在能耗比方面有极为显著的改善。不过即便如此，300瓦的TDP也意味着Tesla P100在散热上的挑战非常高。

上图是Tesla P100的产品图（为了美观NVIDIA做了一些修饰），Tesla P100采用了台积电的CoWoS技术，GPU和四枚堆叠式HBM2内存完全紧挨在一起，内存和GPU之间有超过4000条金属线互连。和以往需要GPU来实现ECC不同的是，HBM2已经具备ECC功能。

Tesla P100具备 49 位虚拟内存空间，可以支持数千个分页缺失以及2MB大小的内存分页，如此一来Tesla P100的统一内存系统不再像以往那样受制于GPU的内存大小，而是只受制于系统内存大小，实现CPU和GPU之间进行块访问以及原子操作，统一内存模式现在是Pascal的默认模式。

按照NVIDIA的说法，未来还会引入32GB的 HMB2，这将比Tesla P100的16GB大一倍。

上图是NVIDIA提供的P100深度计算性能结果，可以看到，两片P100的性能超过了四片 GK210 GPU（K80 和P100的TDP都是300瓦，K80包含两片CUDA Core数为2496个的GK210 GPU）。图中的蓝色水平虚线是一枚Intel Haswell的测试结果。

上图是Tesla P100的背部图，可以看到上面有两个白色的高密度针脚连接器，这就是传说中的NVLink接口以及供电接口。

Pascal是NVIDIA第一个采用NVLink总线技术的架构，该总线可提供四个高达 40GB/s带宽的连接，可以确保实现八枚NVIDAI GPU或者GPU+CPU混合方式的连接，例如和IBM POWER8 CPU的连接。

NVLink总线是一致性的互连技术，对程序员来说这意味着可以直接访问不同芯片上的局部内存。

引入NVLink后，NVIDIA终于有了在服务器叫板的资本，在多GPU延伸上有了更大的主导权。

上图是NVIDIA自己推出的一款包含八枚Tesla P100的深度学习超级电脑，8个Tesla P100被插在一块NVLink矩阵模块板上，和两枚Xeon处理器透过高速的四通道Infiniband实现互连，FP16 性能高达 170TFLOPS，除此外，DGX-1 还提供了7TB的 SSD，搭配的电源功率高达3200瓦，按照NVIDIA的计划，DGX-1 预计会在六月在美国上市，全球上市则是稍后，但也是在第三季度，目前已经接受预定，价格12.9万美元。

Tesla P100的推出意味着GPU计算已经进入丰收阶段，NVIDIA也不再仅仅是满足于GPU供应商，而是要进军平台化，挑战英特尔的条件已经成熟。

NVIDIA表示P100只会有Tesla，目前没有GeForce版本的计划，所以呀大家是不要指望能用P100耍游戏了。

玩家们要的游戏版Pascal会是怎样的？

先别抓狂，NVIDIA可不止有Tesla P100，他们早已另外准备了针对高中低市场的Pascal GPU，代号分别是GP104、GP106、GP107，由于GTC主要针对行业用户，因此这三款游戏GPU的规格并未作任何透露。

坊间有一些关于这三款GPU的猜测，例如按照传统，GP104应该是最高端的，GP106、GP107则渐次。

比较遗憾的是，这三款GPU应该都不会引入HBM2内存，而是采用技术更成熟、产量更高的GDDR5内存。

Anandtech根据NVIDIA在现场展示Drive PX2自动驾驶模块认为该模块采用的GPU是 GP106，而NVIDIA在一月份的CES 2016展示的DRIVE PX2则是采用 GM204。

根据NVIDIA的技术讲解，DRIVE PX2提供了24 DL TLOPS的深度学习性能和大约 80GB/s 的内存带宽，拥有4GB GDDR5内存，这意味着这里的单枚GP106 FP16性能是12 TFLOPS，一般来说单精度和半精度的比例是1:2，以此可以得出的单精度性能就是6TFLOPS。

NVIDIA的 GM204足本显卡是GeForce GTX 980，单精度性能为4.6TFLOPS，这意味着 DRIVE PX2 的 GP106 单精度性能相当于GTX 980的 1.3 倍，事实上，即使是GM200的 GTX 980 Ti也不过是6.1TFLOPS，当然GTX 980的内存带宽要（256GB/s）高不少。

GP106 就能做到这样的单精度性能水准，那么更快的GP104以及较低的GP107 自然也是非常值得期待了，从现在算起，应该剩下不到60天，我们就能看到它们的正式亮相了:)

作者：CHO