1前言 & 规格对比 & 外观赏析回顶部

写在开头

RTX 40系显卡至今已经发布了三款,RTX 4090与RTX 4080这两张旗舰卡的性能有目共睹,不过高昂的售价确实令不少人望而却步。后续老黄虽然带来了RTX 4070 Ti,不过6499的售价也让囊中羞涩的玩家下不去手。这不为了让更多人能够用上最新黑科技,体验Ada Lovelace架构与DLSS 3,老黄终于发布了GeForce RTX 4070显卡,4799元的起售价相比前面三位老大哥可以说是友好了许多,这无疑会吸引不少玩家关注。

打开网易新闻 查看精彩图片

而耕升作为深耕显卡市场30多年的老品牌,同时还是NVIDIA在国内重要的AIC合作伙伴,GeForce RTX 4070的发布自然不能缺席。我们也在第一时间上手了最新的RTX 4070显卡,这次我们测试的是耕升 GeForce RTX 4070 星极皓月 OC。雪白的外衣、强劲的性能、合理的售价,每一点都透露着这张显卡的“不简单”。下面就一同探索它的性能上限,究竟能给玩家带来怎样的惊喜。

*下文“耕升 GeForce RTX 4070 星极皓月 OC”简称为“耕升RTX 4070星极皓月OC”

规格对比

在开始测试前,我们先了解一下耕升RTX 4070星极皓月OC的配置,首当其冲的自然是显卡的“心脏”——AD104核心,在RTX 4070 Ti首发测试时我们知道,那上面搭载的才是完整版的AD104核心,而RTX 4070上的这颗则是阉割版。

打开网易新闻 查看精彩图片

从下图可以看到,完整的AD104核心应该包括5个GPC(图形处理集群)、30个TPC(纹理处理集群)、60个SM(流式多处理器)以及一个带有6个32Bit显存控制器的256Bit显存带宽。

打开网易新闻 查看精彩图片

而RTX 4070上的这颗AD104核心则只有4个GPC(图形处理集群),其中1个GPC也是经过阉割的、另外还有23个TPC(纹理处理集群)、46个SM(流式多处理器)以及一个带有6个32Bit显存控制器的256Bit显存带宽。二级缓存部分也与RTX 4070 Ti有细微差距,RTX 4070 Ti为48MB的二级缓存,而RTX 4070则是36MB,不过相比起前代的RTX 3070或RTX 3070 Ti的4MB二级缓存,可以是降维打击了。

打开网易新闻 查看精彩图片

除此之外,耕升RTX 4070星极皓月OC上的这颗AD104核心被命名为AD104-250-A1,TSMC 4N工艺制造,芯片面积为295平方毫米,虽然不及上代的面积大,但因为工艺制程的进步,耕升RTX 4070星极皓月OC上的这颗AD104内塞下了更多的晶体管,足足有358亿之多,并且频率上也往前迈进了300MHz以上,可以说是全方位的领先。

打开网易新闻 查看精彩图片

其他参数也是堆料十足,5888个CUDA,46个第三代RTX Cores,184个第四代Tensor Cores,并且用上了12GB的GDDR6X显存,相比上代的提升还是很明显的,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。

外观赏析

耕升RTX 4070星极皓月OC的外包装还是相当有特点的,正面满满当当的赛博朋克风。在包装的右下角标明了自己的身份GeForce RTX 4070,而在左下角是型号星极皓月OC 12GB GDDR6X。

打开网易新闻 查看精彩图片

包装盒的背面就相当简约了,不像正面那么“张牙舞爪”,更多的是介绍耕升的品牌理念与星极系列显卡的独特设计。

打开网易新闻 查看精彩图片

整个包装盒上最重要的当然是右上角标明的“支持三年质保以及个人送保“,展现了耕升对自家产品的信心,玩家可以放心购买。

打开网易新闻 查看精彩图片

拆开包装就能见到显卡本体了,包装盒内还附赠了“不用读“系列说明书、RGB同步线以及耕升定制的显卡支架。

打开网易新闻 查看精彩图片

初看耕升RTX 4070星极皓月OC就被它的设计所惊艳到,身披雪色战甲配合银色的散热器,冷艳中显露出高贵的气息。纯白的设计风格给玩家带来全新视觉风格的同时,也给白色主题装机用户提供了新选择。

打开网易新闻 查看精彩图片

正面最抢眼的应该是三把散热风扇,每把风扇都达到了92mm的直径,甚至左右两边都已经撑过了外壳边界。每把散热风扇都配备了第二代耕升“炫风之刃”造形扇叶,特殊分叶型设计让风扇在相同的转速底下比传统扇叶拥有更大的风流量,进一步舒缓显卡温度,加强核心动态频率的提升幅度。

打开网易新闻 查看精彩图片

并且这三把散热风扇还是有小设计的,放大中间的风扇,可以发现其实它更像一只眼睛,四周还有一圈镂空做映衬,上面密密麻麻排满了大写的“G“字样,象征着耕升对性能的极致渴望。

打开网易新闻 查看精彩图片

显卡的背面是巨幅的白色金属背板,提高散热效能的同时也很好的保护了PCB板。背板上还印有“耕升“与”GEFORCE RTX“,辨识度拉满。

打开网易新闻 查看精彩图片

穿透式散热设计也让显卡背面多了一丝美感,在金属背板的右方进一步加大积镂空间,配合散热器上第三组风扇的风流直接穿透散热鳍片以及镂空的PCB设计,令显卡温度进一步下降。

打开网易新闻 查看精彩图片

视角转到显卡顶部,熟悉的“GEFORCE RTX“字样牢牢镶嵌在上,旁边是巨大的“耕升GAINWARD”Logo,不点亮时有着银色的反光,与雪白的机身相得益彰。

打开网易新闻 查看精彩图片

当你点亮显卡以后,这个“耕升GAINWARD”Logo开始熠熠生辉!跟定制的显卡支架一起搭配使用,两道RGB为显卡显著提升战力,带来全新的视觉享受。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

显卡的两侧,一大排鳍片出风口贯穿始终,并且紧贴金属背板,多重散热加持,相信耕升RTX 4070星极皓月OC在后续的测试中有不错的表现。

打开网易新闻 查看精彩图片

供电接口使用的是传统的8pin供电接口,放在一众RTX 40系显卡中可以说是相当罕见了。不过以它的供电能力带动这张显卡还是绰绰有余的。

打开网易新闻 查看精彩图片

底部的显卡金手指为标准的PCIe 4.0 x 16速率,拥有更快的传输速度,有利于显卡释放更强的性能。

打开网易新闻 查看精彩图片

IO挡板上是这款显卡的输出接口,从上往下依次是3个DP 1.4a和HDMI 2.1接口,可实现最高8K@60Hz的视频输出,并且最大支持4屏输出,如果你是一个多屏党,它绝对能够满足你的需求。

打开网易新闻 查看精彩图片

最后从这个角度看过去可以发现耕升RTX 4070星极皓月OC比自家的老大哥要瘦了,52mm的厚度再也不是惊人的三槽厚度了,这个体积,小点的机箱也能容纳,组建一台性能小钢炮成为可能。

打开网易新闻 查看精彩图片

2显卡拆解回顶部

显卡拆解

见识完耕升RTX 4070星极皓月OC的冷艳外观,下面让我们看看它的内部构造。想要拆解这张卡仅需卸下背板上的几颗螺丝即可。

打开网易新闻 查看精彩图片

首先引入眼帘的正是纯黑色的PCB,可以说这一代RTX 40系显卡的集成度相当高,PCB的大小都控制得恰到好处,并且还用上了8层PCB设计,可以说电气性能相比以前有了长足的进步。

打开网易新闻 查看精彩图片

翻过背面看看,PCB上是密密麻麻的控制芯片与滤波用的MLCC,整齐有序的排列宛如一座雄伟的城池一般。

打开网易新闻 查看精彩图片

PCB的正中央就是备受瞩目的AD104-250-A1核心,虽然是阉割版,但还是蕴含了不小的能量。其采用TSMC 4N工艺打造,295mm2的芯片面积内塞下了5888个CUDA 核心。

打开网易新闻 查看精彩图片

核心四周是6颗GDDR6X显存颗粒,来自美光科技,型号是3DU47 D8BZC,单颗显存容量为2GB,6颗显存共组成12GB,相比上代的RTX 3070可以说是史诗级进步了。不过显存速率仅有21Gbps,相比大哥RTX 4080略低。

打开网易新闻 查看精彩图片

耕升为这款显卡配备了10相供电,其中8相为核心供电,位置安排在PCB的左侧,每相供电都配上固态电容、封闭电感,以及DrMos芯片。

打开网易新闻 查看精彩图片

剩余2相则是显存供电,位置在GDDR6X显存附近,配置与核心供电一致,可以说相当豪华了。

打开网易新闻 查看精彩图片

无论是核心供电还是显存供电都采用了独立的DrMos芯片,来自安森美,型号是NCP302150,单颗持续输出电流为50A,足以带动AD104与GDDR6X显存这两个性能大户。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

PWM供电芯片则被安排在PCB背面,型号为uP9512R,用于管理核心供电。

打开网易新闻 查看精彩图片

显存供电则由uP9529Q芯片负责。

打开网易新闻 查看精彩图片

背面还有一颗名为uS5650Q的芯片,其担任电压/电流/功耗监控的工作,是不可或缺的芯片之一。

打开网易新闻 查看精彩图片

PCB的底部就是PCIe金手指了,标准的PCIe 4.0 x16速率,使用前务必确保其接入主板上最高速率的PCIe插槽及开启主板Resizable BAR功能,这样显卡才能够满血释放。

打开网易新闻 查看精彩图片

再看看电源接口,我们熟悉的老朋友——8Pin接口,这个接口用在耕升RTX 4070星极皓月OC上可以说是恰到好处。

打开网易新闻 查看精彩图片

看完了堆料配置,该看看这款显卡的散热如何了,耕升RTX 4070星极皓月OC用上了RTX 4070 Ti的同款散热,因此笔者也对它的散热表现充满期待。

打开网易新闻 查看精彩图片

散热器的一端是大面积的均热板,耕升在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热,就连AD104核心处也是厚厚的一层硅脂,基本上把能堆料的地方都拉满了。

打开网易新闻 查看精彩图片

散热器另一边是大面积紧密的散热鳍片,能够更快的将显卡内部的热量导出,让显卡保持“冷静”,全力输出。

打开网易新闻 查看精彩图片

厚重的散热器内还藏了4根6mm的复合式热导管,贯穿整个散热器,还用上了抗氧化能力极强的镀镍工艺,延长使用寿命。

打开网易新闻 查看精彩图片

主动散热部分用的是3把92mm的散热风扇,说实话以这张显卡的功耗,再有TSMC 4N工艺的加持,3把风扇可以把显卡吹感冒了!

打开网易新闻 查看精彩图片

风扇扇叶用的是经优化的耕升专用“炫风之刃”扇叶,改良后可以提升风流量,并减低声噪,有效加强散热,内外兼备。

打开网易新闻 查看精彩图片

3测试平台介绍 & 理论/游戏测试回顶部

测试平台介绍

打开网易新闻 查看精彩图片

首先介绍一下本次的测试平台,我们用上了评测室的最强硬件,CPU使用的是目前的旗舰——Intel i9-13900KS处理器,主板为ROG Z790 HERO,搭配金士顿32GB DDR5-6000高规格内存,确保这张显卡能够释放全部性能。

打开网易新闻 查看精彩图片

测试平台方面我们已经祭出了目前地表最强的硬件,那拿来衬这张显卡的显示器自然也不能弱,用的依旧是天花板级别的AGON PD32M保时捷联名款,4K@144Hz的高刷,丝般顺滑畅享市面上的3A游戏。

打开网易新闻 查看精彩图片

测试前通过GPU-Z看看显卡的规格参数,产品名称中有“OC”字样代表显卡加速频率会比公版高一些,因此耕升RTX 4070星极皓月OC显卡的加速频率为2580MHz,拥有5888个CUDA单元,12GB GDDR6X显存,192bit显存位宽。

打开网易新闻 查看精彩图片

另外,这张显卡的TGP设定给到了215W,温度墙也跟RTX 4080为同一水平线的88℃,给极客玩家预留了充足的超频空间。

理论性能测试

国际惯例,我们先对耕升RTX 4070星极皓月OC显卡进行理论性能测试,软件大家dou很熟悉了,就是Steam上最火爆的《3DMark》。

打开网易新闻 查看精彩图片

单从图中就可以看出这张显卡的性能就是爆杀上一代两张的70显卡,用一句话描述就是,在2K分辨率下,耕升RTX 4070星极皓月OC的理论性能表现是RTX 3070的1.3倍,约为RTX 3070 Ti的1.3倍。

打开网易新闻 查看精彩图片

再看看老黄引以为傲的光追项目,耕升RTX 4070星极皓月OC在 PortRoyal项目中突破1w分大关,领先前代的RTX 3070 Ti 约3000分,提升幅度令人惊喜。可见新架构的革新不仅带来了性能的飞跃,光追也得到了很好的补全,相信这款显卡在光追游戏中的表现一定会给我们带来不一样的惊喜。

打开网易新闻 查看精彩图片

在GPGPU理论性能测试方面,拥有Ada Lovalace架构的RTX 40系列显卡在算力上也有出色的性能表现,尤其是单精度和双精度浮点运算上,提升幅度是最大的。整体性能是RTX 3070 Ti的1.4倍,对比RTX 3070更是可以达到1.5倍之多。

游戏性能测试

游戏测试玩家们已经等很久了,事不宜迟马上开始,首先是常见的1080P分辨率,说实话多少有点看不起耕升RTX 4070星极皓月OC了。实测结果来看,不少游戏都能稳定运行在150 FPS以上,像《荒野大镖客2》这样优化比较好的游戏,仅需开启DLSS 2,它就已经能够达到150+ FPS。相比起20系的RTX 2070 Super,帧数几乎是翻倍的提升,即便是面对上一代的RTX 3070或RTX 3070 Ti,耕升RTX 4070星极皓月OC一样能够领先30 FPS左右。

打开网易新闻 查看精彩图片

升级到游戏玩家更常用的2K高分辨率,耕升RTX 4070星极皓月OC依旧乱杀,大部分游戏依旧有120 FPS以上的水平,要知道这还是不开DLSS或者只开了DLSS 2的水平,更不用说它还有黑科技DLSS 3。看看热门的《地平线5》,这张显卡的帧数去到了149 FPS,上代的两张70级显卡只有120 FPS,当耕升RTX 4070星极皓月OC已经能够2K高刷畅玩时,其他卡才刚到高刷的及格线,性能差距不言而喻。

打开网易新闻 查看精彩图片

总的来说,耕升RTX 4070星极皓月OC完全对得起2K高帧游戏神卡的称号,游戏性能提升相当理想,领先上代RTX 3070显卡约26%;尤其是随着分辨率的提升,部分光线追踪能力要求更高的游戏提升就越为明显。即使面对RTX 4070 Ti也不虚,性能差距仅有16%左右,从这一点来看,性价比显著。

4DLSS 3性能测试回顶部

DLSS 3性能测试

DLSS可以说是AI时代最具革命性的突破,随着DLSS的更新,现在已经发展到了3.0时代。全新的DLSS 3技术不仅可以大幅提升帧率,还可以让系统延迟大大降低,生成的画面更是足以媲美甚至超越原始渲染的效果。我们也是准备了一系列的测试验证DLSS究竟有没有老黄说得那么神。

打开网易新闻 查看精彩图片

3DMark DLSS 3理论性能测试

老惯例,先测试一次理论性能,在3DMark的DLSS 3测试中,耕升RTX 4070星极皓月OC仅开启DLSS 2的情况下就已经能够实现2K@120Hz,4K@60Hz的游戏体验了;如果开启DLSS 3后,2K下帧数能够上升至130FPS,4K画质下也能勉强体验90Hz的高刷效果。

打开网易新闻 查看精彩图片

《光明记忆:无限》游戏实测

光有理论测试还不够,并且现在支持DLSS 3的游戏已经有50多款,不实测怎么能见识到DLSS 3的真实战力。我们选择了一款首发就支持DLSS 3的国产游戏《光明记忆:无限》,这是一款FPS射击游戏。我们使用耕升RTX 4070星极皓月OC进行测试,2K分辨率下新显卡的帧数相比前作高出了几十帧的差距,如果放在1080P画质下,领先幅度将继续加大到接近1倍的水平。值得一提的是不单止性能有飞跃,功耗还维持在低位,可以说是花小钱办大事的典范了。

打开网易新闻 查看精彩图片

这里也给大家看看游戏中DLSS 3的实际表现,分辨率为2K,画质极高 ,DLSS模式为性能,可以看到即使是开启DLSS 3后,游戏画面肉眼看去几乎没有画质损失,而游戏帧数却一直稳定在高位,可以说DLSS 3让游戏体验达到了新的境界。

在其他几款游戏中也是如此,耕升RTX 4070星极皓月 OC在开启DLSS 3后,游戏帧数相比RTX 3070 Ti都有60%-70%左右的提升,不少项目更是有翻倍的帧数提升,并且功耗都更低,用更低的功耗实现更强的性能,这才是玩家所乐见的。

打开网易新闻 查看精彩图片

DLSS 3带来的另一优势是由于集成了NVIDIA Reflex,因此开启DLSS 3之后,将会带来更低的游戏延迟,对MOBA、大逃杀或FPS类游戏玩家来说,其意义也是非常重大的。

打开网易新闻 查看精彩图片

1080P分辨率DLSS性能测试

1080P的画质对在座的显卡几乎没有难度,这里的测试主要用来看DLSS 3能否带来神秘加成。毫无疑问,开启DLSS 3后的耕升RTX 4070星极皓月OC犹如开了外挂一般,不少RTX 3070或RTX 3070 Ti只能运行在100 FPS出头的游戏,耕升RTX 4070星极皓月OC直接抬到了200+ FPS的水平。性能领先前代显卡70%以上,可见DLSS 3真的有点东西。

打开网易新闻 查看精彩图片

2K分辨率DLSS性能测试

作为一张定位2K高帧的游戏显卡,耕升RTX 4070星极皓月OC的表现果然不负众望,在DLSS 2下,这款显卡已经超越了RTX 3070 Ti,开启DLSS 3后,游戏性能更是飞跃,RTX 3070跟RTX 3070 Ti只能望其项背,它的性能甚至一度超越了RTX 3080!从表格数据就可以看出,开启DLSS 3后,耕升RTX 4070星极皓月OC的性能是RTX 3070的243%,可想而知有DLSS 3的介入,性能可以有多离谱。

打开网易新闻 查看精彩图片

我们也使用耕升RTX 4070星极皓月OC在DLSS 2和DLSS 3两种模式下测试了多款游戏,从实测结果来看,DLSS 3确实有点东西,不少游戏的帧数都有明显提升,其中不乏一些游戏有翻倍的性能提升。

打开网易新闻 查看精彩图片

更让人惊喜的是开启DLSS 3后,游戏的1% Low帧也有提升,这也意味着你在玩游戏时更稳定更丝滑。想象一下,换装耕升RTX 4070星极皓月OC后在2K画质下畅玩3A大作,电竞级的体验可以说是真的爽。

4K分辨率DLSS性能测试

虽然说这是一张定位2K 100+FPS游戏级别的显卡,但耕升RTX 4070星极皓月OC仍是具备一定的4K游戏能力,只要把DLSS 3一开,或者是把游戏画质降低一些,游戏流畅度就直接上来了,跑个60+FPS不成问题。

打开网易新闻 查看精彩图片

5RTX VSR性能测试回顶部

RTX VSR性能测试

有些时候你是不是也会有这样的烦恼,那些480P甚至360P的早期视频清晰度不够,看起来不够清楚?现在这种烦恼将不再困扰你。NVIDIA带来了视频版的DLSS 3!正是前不久发布的RTX Video Super Resolution 视频超分辨率技术(RTX VSR),通过AI技术即可提高浏览器内的视频的分辨率,展现前所未有的显示效果。

打开网易新闻 查看精彩图片

今天我们也测试了这项划时代的RTX VSR技术,在RTX 30系和RTX 40系的NVIDIA控制面板中找到视频图像设置,手动开启RTX Video enhancement即可启用RTX VSR技术,其中分为1-4档调节,数字越大质量越好。

打开网易新闻 查看精彩图片

实测环节,可以看到在开启RTX VSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,并且随着VSR级别的提高,清晰度逐级提升,甚至部分细节已经接近原生1080P了。

打开网易新闻 查看精彩图片

在暗部表现同样如此,原视频里地板如同劣质贴图,有VSR加持后每块砖头都清晰可见,且立体感满满,尤其是旁边绿色植被的清晰度更高了一个数量级。除此之外,RTX VSR技术的AI算法似乎还能够通过类似DLSS帧生成的方式计算出物体的远近关系优化景深效果,这一点同样能够使得画面整体观感得到提升。

打开网易新闻 查看精彩图片

这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR 4跟原生480P相比就是一眼的区别,在开启RTX VSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。

当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTX VSR技术的本地播放器,且能够支持多种视频格式播放。正式版也随着RTX 4070显卡的解禁上线了,你硬盘里的老视频也能摇身一变成1080P了!

我们将浏览器中的视频与本地的视频同时进行RTX VSR 4档渲染,从画面上看,右侧本地播放器的效果要弱于左侧浏览器的,浏览器上的4档VSR线条更锐利,画质也更清晰,不过即使是本地播放器的效果也要远强于原生480P,笔者猜测可能是目前本地浏览器的优化还不到位。

打开网易新闻 查看精彩图片

我们也将原生480P与浏览器和本地播放器上的VSR渲染视频进行对比,从视频画面中可以看到,本地播放器上4档VSR渲染过后,文字或线条都相比原生480P有一定提升,至少以前模糊不清的视频可以看了,不过对比浏览器的效果还略有差距,后者的效果已经接近原生1080P了。

有用户可能担心功耗的问题,在VSR开启最高档4档的情况下,耕升RTX 4070星极皓月OC的功耗仅有24W左右,显卡利用率也远没有网络上传得那么高,在HWINFO64中可以看到显卡全程利用率不过25%。

打开网易新闻 查看精彩图片

总的来说,耕升RTX 4070星极皓月OC上的RTX VSR技术将为玩家和视频观看者带来革命性的新体验!无论是性能上还是技术上的创新,都称得上是流媒体时代的革命!

6创作生产力 & NVIDIA编码器 & AI运算测试回顶部

创作性能测试

理论与游戏上的性能提升让笔者对耕升RTX 4070星际皓月OC充满期待,在创作生产力上是否也是如此?我们选择PugetBench、PCMark 10、UL Procyon等多款常见的测试软件,来测试这款显卡在日常办公、视频内容生产方面的表现。

打开网易新闻 查看精彩图片

从实测结果中可以看到,PCMark10 Extended测试中,耕升RTX 4070星极皓月OC在游戏这个子项目上对比前代的RTX 3070与RTX 3070 Ti有明显的优势,领先幅度高达20%。这也跟上述游戏性能测试结果相符,可见游戏玩家这次真是捡到宝了,花更低的价格用更强的显卡。

打开网易新闻 查看精彩图片

创作生产力部分,这款显卡的表现也令人喜出望外,不单止超越前代显卡不少,甚至在达芬奇测试中还反杀了老大哥RTX 4070 Ti。提到达芬奇测试就不得不提这款显卡支持AV1编解码,这是一项新技术,有了AV1的加持后,耕升RTX 4070星极皓月OC的性能相比RTX 3070足足提升了38%,因此换装新显卡意味着在未来的创作生产中讲给你带来更极致的体验。

创作生产已经如此出色了,面向渲染、工业设计等专业生产又如何?一句话概括就是:强!很强!非常强!单是在Blender渲染软件中,耕升RTX 4070星极皓月OC相比RTX 3070就有50%的性能提升,就算是RTX 3070 Ti,它依旧领先45%以上。

再看看OC渲染器,性能领先可以用离谱来形容,耕升RTX 4070星极皓月OC的渲染性能领先RTX 3070 Ti有50%之多,如果对比同代的RTX 3070,差距将拉大到60%!这也意味着渲染同一段素材,换装耕升RTX 4070星极皓月OC的你可以比别人快出接近一倍的速度,生产效率将极大的提高。

打开网易新闻 查看精彩图片

NVIDIA编码器测试

熟悉RTX 40系显卡的玩家对NVIDIA编码器一定不陌生,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。

打开网易新闻 查看精彩图片

我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,同样使用H.265编码,有编码器的加持下,耕升RTX 4070星极皓月OC的效率比RTX 3070快40%以上,如果使用AV1编码,那效率会比H.264快50%。

打开网易新闻 查看精彩图片

值得一提的是AV1编码不止导出速度更快,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上。经过对比,AV1编码的视频在画质上与H.265也没有明显差距,可以说AV1对战H.265是全方位的领先,势必会成为下一个最受欢迎的格式。

打开网易新闻 查看精彩图片

AI运算能力测试

AI是目前备受关注的议题,AI作画、AI写稿、AI剪辑等各种应用如雨后春笋般接踵而至,不少玩家也想趁着这股东风,搭上AI的快速列车!那我们手上的耕升RTX 4070星极皓月OC你一定不能错过,毕竟玩转AI可是老黄的拿手好戏。

打开网易新闻 查看精彩图片

我们对耕升RTX 4070星极皓月OC显卡进行AI运算能力测试,在使用达芬奇AI ACCELERATED MAGIC MASK测试时,可以看到它的完成时间为14秒,而前代的RTX 3070则是21秒,你可能觉得时间差距不大,但项目一旦复杂起来,选用耕升RTX 4070星极皓月OC会让你的效率快33%以上。

打开网易新闻 查看精彩图片

在另一款AI应用软件ON1 Resize AI 2023中,使用AI将多张图片提升200%分辨率,此时耕升RTX 4070星极皓月OC的速度为10秒一张,而上代的RTX 3070和RTX 3070 Ti均为12秒,即使对比RTX 4070 Ti,耕升RTX 4070星极皓月OC也只慢了2秒而已。

打开网易新闻 查看精彩图片

而在最近大火的AI作画中,耕升RTX 4070星极皓月OC更是大放异彩。我们用Stable Diffusion生成50张768 x 768的图片进行测试,从生成时间上就可以看到耕升RTX 4070星极皓月OC的强势,前代的RTX 3070 Ti生成50张图需要接近3分钟的时间,而前者只需要2分11秒!

打开网易新闻 查看精彩图片

另外在测试中还有一个值得关注的地方就是显存占用,基本上RTX 20系跟RTX 30系的几张显卡在测试时显存占用都达到了7.6G以上,虽然我们手头上的耕升RTX 4070星极皓月OC显存占用也有7G以上,不过得益于12GB大显存,因此在生成速度上有明显优势,所以大家在玩这个软件的时候应该是显卡显存越高越好,选择耕升RTX 4070星极皓月OC就是你高性价比兼高性能的选择。

7功耗 & 超频 & 评测总结回顶部

功耗与发热

上面提到以RTX 4070的体量,散热风扇完全用不上三把,所以我们也对耕升RTX 4070星极皓月OC进行了功耗和发热测试。

打开网易新闻 查看精彩图片

在室温25℃的情况下,使用Furmark单烤15分钟后,耕升RTX 4070星极皓月OC的GPU核心运行在2655MHz以上的高频,但此时核心温度仅有61℃,显存更是仅有50℃出头。并且此时它的功耗和噪音控制也相当优秀,烤机15分钟,最高功耗仅有215W,上一张做到这个功耗的显卡是RTX 2070 Super,可以说30系显卡在耕升RTX 4070星极皓月OC面前完全没有胜算。

打开网易新闻 查看精彩图片

TSMC 4N工艺与新架构给大家带来了一点点小震撼,我们进一步做了更深入的测试。利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到耕升RTX 4070星极皓月OC整体功耗控制相当出色,在所有测试场景内近乎都是维持在200W左右,用RTX 2070 Super一样的功耗,但性能却已经实现全方位的领先!

打开网易新闻 查看精彩图片

实测下来,不禁感慨RTX 40系显卡确实有点东西,耕升RTX 4070星极皓月OC无论是性能表现、温度控制甚至是能耗比都可以说是N卡的新高度,相比前代的RTX 30系还是初代光追显卡20系都是一次降维打击。

超频能力测试

众所周知,耕升RTX 4070星极皓月OC是一张带”OC”后缀的显卡,那笔者自然是不会放过这个超频的机会,下面一同看看这款显卡的超频潜力究竟有多大吧。

这里我们使用经典的小飞机进行显卡超频,首先当然还是对这张显卡有个基本的性能了解。耕升RTX 4070星极皓月OC在默频状态下Time Spy得分18213分。

打开网易新闻 查看精彩图片

紧接着我们小超一下,核心先超频250MHz,显存超500MHz,没想到仅仅超频250MHz后,Time Spy得分就已经19057分,接近2W分大关了,此时耕升RTX 4070星极皓月OC在测试中的核心频率也已经有3000MHz了,相比默频时最高的2790MHz刚好提升了200多MHz左右。

打开网易新闻 查看精彩图片

继续加码,我最后将耕升RTX 4070星极皓月OC的频率定格在核心和显存分别提升了280MHz和1500MHz。此时在Time Spy测试中,显卡的核心频率已经上到了3015MHz,在频率上甚至比RTX 4070 Ti还要再强一些,当然频率的提升带来的是性能的增强,测试总分也来到了19413,相比默频的18213分,提升近1200分,能力可见一斑。

打开网易新闻 查看精彩图片

评测总结

测试完这张耕升 GeForce RTX 4070 星极皓月 OC,感叹游戏发烧友终于等来了最值得选购的一张RTX 40系显卡。见过RTX 40系显卡的玩家应该都会被其中的黑科技所折服,这张新显卡不仅继承了Ada Lovelace架构、DLSS 3等,还带来了全新的RTX VSR等极具生产力的功能,让新显卡不仅有着超常的性能、超低的功耗,还有超越的技术,满满的亮点带给玩家最大的惊喜。

打开网易新闻 查看精彩图片

说回耕升 GeForce RTX 4070 星极皓月 OC,这张显卡最吸睛的应该是它的颜值。白色冷艳的外观设计无疑是一众显卡中独具一格的存在。纯白的金属外壳与正面镂空的眼睛设计别有一番韵味,黑与白的相互碰撞,擦出了惊艳的火花,让游戏玩家也能感受“科技美学”的力量。老实说,初看它的第一眼,就被深深吸引,相信这样的外观也能俘获玩家的心。

性能方面自不必多说,AD104核心的战力大家有目共睹!耕升 GeForce RTX 4070 星极皓月 OC的表现可以说是完胜RTX 3070 Ti,甚至对比RTX 3080都有不小的优势。性能飙升的同时,功耗还维持在RTX 2070 Super的水平,可以说遥遥领先于30系显卡。游戏性能更是惊艳,DLSS 3的加持下,2K 100+ FPS感受细腻画质与丝滑体验,即使4K下,有了DLSS 3也有一战之力。

打开网易新闻 查看精彩图片

最后再聊聊耕升 GeForce RTX 4070 星极皓月 OC显卡的售价,作为一款兼具颜值与性能的中端旗舰,显然是众多游戏发烧友的首选。5099元的售价也让这款显卡相比起老大哥们更为“亲民”,性价比十足。目前耕升 GeForce RTX 4070 星极皓月 OC已在各大电商平台开售,手持旧显卡的玩家不妨趁这个机会入手新显卡,感受最新科技带来的极致体验。

8Ada Lovelace架构解析回顶部

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦。

打开网易新闻 查看精彩图片

从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

全新的SM流式多处理器

打开网易新闻 查看精彩图片

Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

打开网易新闻 查看精彩图片

过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4070拥有46个SM,5888个CUDA核心,那你也就应该明白它的着色器能力进一步加强,跟上一代的RTX 3070相比,虽然是同样的CUDA核心,但得益于新架构的优势,完全可以说是遥遥领先。

打开网易新闻 查看精彩图片

另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX 4070配备了36MB二级缓存,相比RTX 3070可以说是质的飞跃,足足提升了9倍之多。

9技术讲解:第三代RTX Cores与第四代Tensor Cores回顶部

技术讲解:第三代 RTX Cores 与 第四代 Tensor Cores

打开网易新闻 查看精彩图片

以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RTX Cores与第四代 Tensor Cores身上。

第三代 RTX Cores

打开网易新闻 查看精彩图片

RTX Cores用于光线追踪加速,第三代 RTX Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。

打开网易新闻 查看精彩图片

在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

所以在第三代 RTX Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。

打开网易新闻 查看精彩图片

在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

打开网易新闻 查看精彩图片

而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

Displaced Micro-Meshes Engine

打开网易新闻 查看精彩图片

如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTX Cores更低,效率也更高。

打开网易新闻 查看精彩图片

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。

打开网易新闻 查看精彩图片

同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RTX Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

第四代 Tensor Cores

打开网易新闻 查看精彩图片

Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代Tensor Cores新增FP8引擎,具有高达1.32 petaflops 的张量处理性能,超过上一代的5倍。

10技术讲解:DLSS 3回顶部

技术讲解:DLSS 3

或者说第四代Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS 3技术。

之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

打开网易新闻 查看精彩图片

在DLSS 3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS 2)和NVIDIA Reflex。你可以理解为DLSS 3是在DLSS 2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

打开网易新闻 查看精彩图片

想实现DLSS帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助 GeForce RTX 40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

打开网易新闻 查看精彩图片

从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。

打开网易新闻 查看精彩图片

另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS 2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点:NVIDIA Reflex

NVIDIA Reflex也是DLSS 3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

打开网易新闻 查看精彩图片

想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

打开网易新闻 查看精彩图片

当GeForce RTX 40系列显卡和NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。

打开网易新闻 查看精彩图片

在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。

但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p 360Hz是很美好,但现实也是相当的骨感。

11技术讲解:NVIDIA编码器回顶部

技术讲解:NVIDIA编码器

打开网易新闻 查看精彩图片

GeForce RTX 40系列显卡还有一个全新的升级,那就是编码器NVENC。第八代的NVENC编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。

打开网易新闻 查看精彩图片

而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及Adobe Premiere Pro较为流行的Voukoder插件均支持,且均可通过编码预设使用编码器,这样我们等待视频导出的时间缩短将近一半。

打开网易新闻 查看精彩图片

不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。

打开网易新闻 查看精彩图片

包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时编码器NVENC在资源占用和适配上做得越来越好。