原标题:神秘不再 NVIDIA下一代GPU架构Pascal初探

在两年前的2014 GTC大会上,NVIDIA更新了该公司的产品路线图,Maxwell架构原定的接班人从Volta更新为Pascal(帕斯卡),后者将采用3D内存技术,拥有Terabyte/s级别的内存带宽以及崭新的NVLink总线技术,对于许多一直关注GPU技术的人士来说,这些新技术无疑让人十分振奋的。

Pascal是NVIDIA引入GPU计算后的第五代GPU架构,但是按照NVIDIA自己总的架构代数划分,则属于第十一代,而对消费者而言,最简单的描述就是:这是他们即将就能买到的新显卡。

在 4 月 6 日召开的NVIDIA GTC2016 上,NVIDIA CEO黄仁勋进行的主题演讲首次向公众公布了基于Pascal的两款 GPU:Tesla P100和架构名尚不清楚的中端版Pascal。

其中,Tesla P100作为旗舰级产品,具备了Pascal架构的所有特性:

极高的性能:针对HPC、深度计算以及甚多GPU的应用场合

NVLink:NVIDIA独家的新高速总线,专门用于GPU的高速互连

HBM2:目前最快、容量最高的堆叠式内存技术

统一内存和计算抢占:可以显著改进编程模型

16 纳米 FinFET(鳍式场效应管)制程:可以让Pascal实现更多的特性、更快的性能以及改善能效比

全面提升的Pascal GP100微架构

按照目前的资料看,GP100是Tesla P100的微架构代号,这样的区分在过往并未出现过,例如GM200微架构对应的GPU加速器就没有Tesla M200这样的说法,出现这样的区分,也许是因为NVIDIA从这一代产品开始将GPU计算产品看做一个非常严肃(赚钱?)的产品看待。

事实上,“GPU加速器”这样的称呼也是首次在这次大会上频繁出现,NVIDIA不断提“加速器”的说法,其目的就是希望突出产品的计算性能而不再仅仅是图形处理器。

解读完名字后,就让我们进入干货阶段吧。

NVIDIA的GPU计算产品被称作Tesla,这是从第一代针对GPU计算的 G80(Tesla 8,当时的GPU微架构也叫Tesla)开始,NVIDIA将传统微架构意义上的内核称作 streaming multiprocessor,简称SM,SM对来自并行运行的众多线程的指令进行创建、管理、调度和执行,而“内核”这个称呼则被NVIDIA用作 SIMD 中单个处理单元,GPU厂商的这些术语即使到现在对许多业内人士来说也都是有点混乱的。

从计算的角度,SM虽然已经算是一个内核,当时从图形处理的角度,它只负责可编程计算部分,缺乏一些图形渲染的固定功能硬件,例如三角形 Setup(设置)、Tessellation(镶嵌)、纹理等单元。

NVIDIA将若干SM组织为一个被称作GPC(图形处理簇,更早的时候被称作 TPC,纹理处理簇,因为那时候还没在这个层级上引入硬件几何处理单元),GP100拥有10个GPC,每个GPC拥有6个SM,合计有60个SM,每个SM拥有64个CUDA Core(或者说64路SIMD)和16个纹理单元,所以CUDA Core一共有3840个,纹理单元有240个。

虽然GP100足本版本是3840 Cuda Core,或者说60个SM,NVIDIA公布的Tesla P100却只有3584 Cuda Core(56 个SM),这意味着至少第一波的Tesla P100是非足本的,有4个SM被保留作为冗余以提升产能。

内存带宽方面由于引入了HBM2,峰值带宽为720GB/s,这离HBM2的 1TB/s 略有差距,但是依然达到了Tesla M40的三倍。

Tesla P100有高达153亿个晶体管,面积达到610平方毫米,这是NVIDIA迄今为止最大的芯片,如此巨大的芯片,要实现足本版其成本会相当高,采用冗余后,就能提高良品率显著降低成本。

从上图可以直观的看到Tesla P100和前两代产品在SM层级方面的变化:

1、单个SM的 FP32 单元比Tesla M40减少一半、比1/3,但是SM数量显著提升,分别提升了2.73倍和1.33倍,而 FP32:FP64 单元比例则是显著飙升,从 K40 的1:3提升到1:2,在Tesla P100上一共有1792个双精度单元,类似的 FP32:FP64 比例之前只在 AMD 的 Hawaii 上出现。

2、在双精度性能方面,Tesla P100达到了5304(boost clock 模式下)GFLOPS,达到了Tesla K40的3.16倍,而Tesla M40双精度则因为本身是只强调单精度,其双精度性能只有213 GFLOPS,连CPU都不如。

3、Tesla P100的单精度性能达到10.6 TFLOPS,针对深度学习而新引入的硬件半精度(fp16)更是达到了21.2 TFLOPS。

4、纹理单元虽然比Tesla K40少了16个,但是凭借更高的频率,目前看到的纹理指标比Tesla K40要快大约58%。

5、HBM2的容量高达16GB,这个容量比HBM1大三倍,GPU计算的适应能力要广很多。

6、频率方面,Tesla P100比TeslaK40高69%、比Tesla M40高32%,结合规模上的提升,造就了其强悍的性能。

7、Tesla P100的底层每瓦双精度性能是 17.68 GFLOPS,Tesla K40和Tesla M40 分别是7.14 GFLOPS和0.85 GFLOPS,可以看出在Tesla P100在能耗比方面有极为显著的改善。不过即便如此,300瓦的TDP也意味着Tesla P100在散热上的挑战非常高。

上图是Tesla P100的产品图(为了美观NVIDIA做了一些修饰),Tesla P100采用了台积电的CoWoS技术,GPU和四枚堆叠式HBM2内存完全紧挨在一起,内存和GPU之间有超过4000条金属线互连。和以往需要GPU来实现ECC不同的是,HBM2已经具备ECC功能。

Tesla P100具备 49 位虚拟内存空间,可以支持数千个分页缺失以及2MB大小的内存分页,如此一来Tesla P100的统一内存系统不再像以往那样受制于GPU的内存大小,而是只受制于系统内存大小,实现CPU和GPU之间进行块访问以及原子操作,统一内存模式现在是Pascal的默认模式。

按照NVIDIA的说法,未来还会引入32GB的 HMB2,这将比Tesla P100的16GB大一倍。

上图是NVIDIA提供的P100深度计算性能结果,可以看到,两片P100的性能超过了四片 GK210 GPU(K80 和P100的TDP都是300瓦,K80包含两片CUDA Core数为2496个的GK210 GPU)。图中的蓝色水平虚线是一枚Intel Haswell的测试结果。

上图是Tesla P100的背部图,可以看到上面有两个白色的高密度针脚连接器,这就是传说中的NVLink接口以及供电接口。

Pascal是NVIDIA第一个采用NVLink总线技术的架构,该总线可提供四个高达 40GB/s带宽的连接,可以确保实现八枚NVIDAI GPU或者GPU+CPU混合方式的连接,例如和IBM POWER8 CPU的连接。

NVLink总线是一致性的互连技术,对程序员来说这意味着可以直接访问不同芯片上的局部内存。

引入NVLink后,NVIDIA终于有了在服务器叫板的资本,在多GPU延伸上有了更大的主导权。

上图是NVIDIA自己推出的一款包含八枚Tesla P100的深度学习超级电脑,8个Tesla P100被插在一块NVLink矩阵模块板上,和两枚Xeon处理器透过高速的四通道Infiniband实现互连,FP16 性能高达 170TFLOPS,除此外,DGX-1 还提供了7TB的 SSD,搭配的电源功率高达3200瓦,按照NVIDIA的计划,DGX-1 预计会在六月在美国上市,全球上市则是稍后,但也是在第三季度,目前已经接受预定,价格12.9万美元。

Tesla P100的推出意味着GPU计算已经进入丰收阶段,NVIDIA也不再仅仅是满足于GPU供应商,而是要进军平台化,挑战英特尔的条件已经成熟。

NVIDIA表示P100只会有Tesla,目前没有GeForce版本的计划,所以呀大家是不要指望能用P100耍游戏了。

玩家们要的游戏版Pascal会是怎样的?

先别抓狂,NVIDIA可不止有Tesla P100,他们早已另外准备了针对高中低市场的Pascal GPU,代号分别是GP104、GP106、GP107,由于GTC主要针对行业用户,因此这三款游戏GPU的规格并未作任何透露。

坊间有一些关于这三款GPU的猜测,例如按照传统,GP104应该是最高端的,GP106、GP107则渐次。

比较遗憾的是,这三款GPU应该都不会引入HBM2内存,而是采用技术更成熟、产量更高的GDDR5内存。

Anandtech根据NVIDIA在现场展示Drive PX2自动驾驶模块认为该模块采用的GPU是 GP106,而NVIDIA在一月份的CES 2016展示的DRIVE PX2则是采用 GM204。

根据NVIDIA的技术讲解,DRIVE PX2提供了24 DL TLOPS的深度学习性能和大约 80GB/s 的内存带宽,拥有4GB GDDR5内存,这意味着这里的单枚GP106 FP16性能是12 TFLOPS,一般来说单精度和半精度的比例是1:2,以此可以得出的单精度性能就是6TFLOPS。

NVIDIA的 GM204足本显卡是GeForce GTX 980,单精度性能为4.6TFLOPS,这意味着 DRIVE PX2 的 GP106 单精度性能相当于GTX 980的 1.3 倍,事实上,即使是GM200的 GTX 980 Ti也不过是6.1TFLOPS,当然GTX 980的内存带宽要(256GB/s)高不少。

GP106 就能做到这样的单精度性能水准,那么更快的GP104以及较低的GP107 自然也是非常值得期待了,从现在算起,应该剩下不到60天,我们就能看到它们的正式亮相了:)

作者:CHO