NVIDIA RTX3080显卡怎么样?性能如何?玩游戏卡不卡?值得买吗?下面小编带来NVIDIA RTX3080显卡详细评测,希望对大家有所帮助。
NVIDIA RTX3080显卡详细评测:
一、前言:RTX 3080的到来 和说好的完全不一样
3D图形卡领域的第一次革命是1999年NVIDIA公司GeForce 256,它集成的T&L技术(硬件光影转换),将光影处理从CPU中接手过来,解放了CPU的同时也极大的提高了游戏的性能以及画面的真实性。
T&L技术之后3D图形技术的另一次飞跃则是2006年的基于统一渲染构架的DX10。它将此前的Vertex Shader(顶点着色器)和Pixel Shader(像素着色器)统一为streaming processor(流处理器),自此之后设计的GPU都不会再开辟独立的管线,而是所有的流处理器运算单元都可以任意处理任何一种Shader运算,使得GPU的运算效率得到了成倍的提升。
尔后10年,GPU领域没有突破性的技术出现,DX12属于雷声大雨点小,对性能的提升并没有想象中的那么美好,Physx则是曲高和寡。
直到2018年8月,实时光线追踪技术的出现,将3D游戏的画面推向了一个新的高度,玩家第一次在游戏中见到了如同科幻电影般的科幻电影般的光影世界。
图灵GPU发布之后,NVIDIA的市值一路飙升,甚至超越了Intel。财大气粗的老黄没有让我们等太久,仅仅二年的时间,NVIDIA再一次革新了GPU构架。
2020年9月4日发布的基于新一代Ampere安培架构的GeForce RTX 30系列显卡统一了INT32与FP32单元,原本只能做整数运算的INT32单元现在既能做整数运算,也能做单精度浮点运算。
这一项技术革新将传统意义上的流处理器数量直接翻倍,同时GPU的浮点运算能力也提升了一倍。于是我们就看到了RTX 3080的流处理器数量直接从RTX 2080的2954个暴增到了8704个,恍然间仿佛又回到了8800GTX时代。
完整的GA102共有7组GPC,每组GPC有12组SM单元外加16组ROP单元,总计是84组SM单元与112个ROP单元。
RTX 30系列显卡视乎规格不同启用的SM单元总数不同,RTX 3090是7组TPC、24组SM单元与112个ROP单元,RTX 3080是6组TPC、68组SM单元与96个ROP,RTX 3070是6组TPC、46组以及96个ROP。
这是GA102核心的SM单元构架,每个SM单元有64个INT32整数核心、64个FP32单精度浮点核心、4个第三代TENSOR COREs以及以及1个第二代RT CORE。
这里的INT32单元可以根据需求进行单精度整数或者浮点运算,也就是说理论上一个SM单元可以拥有高达128个FP32单元。
融合了一级缓存与共享缓存,每SM单元中缓存总容量为128KB,可以按需灵活分配给一级缓存与共享缓存(Shared Memory),可以是64KB+64KB的组合,也可以是32KB+96KB的组合。
此次NVIDID一共发布了3款GA10X核心的显卡型号。
RTX 3090:拥有7组GPC,82组SM单元共计10496个流处理器、112个ROP、328个纹理单元、328个第三代Tensor Cores、82个第二代RT Cores。搭配24GB GDDR6X显存,显存频率19.5GHz、
位宽384Bit,带宽936GB/s。相比于Titan RTX快了50%,9月24日上市,售价11999元。
RTX 3080:拥有6组GPC,68组SM单元共计8704个流处理器、96个ROP、272个纹理单元、272个第三代Tensor Cores、68个第二代RT Cores。搭配10GB GDDR6X显存,显存频率19GHz、
位宽320Bit,带宽760GB/s。综合性能是RTX 2080的二倍,9月17日上市,售价5499元。
RTX 3070:GA104核心,拥有6组GPC,46组SM单元共计5888个流处理器、96个ROP、184个纹理单元、184个第三代Tensor Cores、46个第二代RT Cores。搭配8GB GDDR6显存,显存频率14GHz、位宽256Bit,带宽448GB/s。综合性能与RTX 2080 Ti但价格只有一半,10月份上市,售价3899元。
RTX3080 GPU-Z参数
RTX 3080的详细规格如下:
二、安培构架解析:流处理器数量翻倍是否言过其实?
在图灵诞生之前,GPU核心中并没有单独的INT32单元,从Kepler到Maxwell到再到Pascal,每一个CUDA核心都就是由FP32单元构成。
而Turing每一个CUDA核心除了有一个FP32的单精度浮点单元之外,还有对应有一个INT32的单精度整数单元。
在现代游戏(例如古墓丽影:暗影)中,每100条指令操作中有62条是浮点指令操作,38条是整数指令操作。以往GPU在只能单独、交替的执行浮点和整数运算,图灵构架加入了整数运算单元之后,可以与浮点单元一起并发执行,可以将流处理器的执行效率提升36%。
不过在游戏中整数运算量远远低于浮点运算量(38:62),因此经常会有大量的INT32单元被闲置。为了解决这个问题,提升INT32单元的利用率,NVIDIA改进了INT32单元,使之不仅可以运行整数运算,也能进行单精度浮点运算。
如上图所示,在安培构架中,每个SM单元中的64个FP32单元依旧保留,而INT32单元则被赋予了更多的使命,它不仅能进行整数运算,但是在不需要进行整数运算的情况下,它也能和FP32一样进行单精度浮点运算。
也就是说,每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算,或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。
在理想的情况将下,一个SM单元中的64个INT单元全部都做单精度浮点运算的话,那么流处理器(FP32单元)数量将会直接变成128个。相对而言,图灵构架一个SM单元只有固定的64个流处理器。
RTX 3080拥有68个SM单元,理论上能达到8704个流处理器的规模。很多同学可能怀疑NVIDIA在骗我们,这些流处理器是否能够同时工作还是个问号。
下面我们使用AIDA64 GPGPU进行验证,看看RTX 3080的8704个流处理器是否言过其实。
如果依据1710MHz的频率和8704个FP32单元来计算RTX 3080的理论浮点性能应当是29767GFLOPS。
实测RTX 3080的单精度浮点运算性能是29117GFLOPS,略低于理论值。这是因为320W TDP的限制,RTX 3080在进行GPGPU单精度浮点测试时,GPU核心的满载频率只有1672MHz并没有达到默频的1710MHz。
不过从这里可以看出,RTX 3080的的确确拥有8704个流处理器(FP32单元),现在已经没有什么好质疑的了。
实测RTX 2080 Ti的单精度浮点运算性能是16626GFLOPS,接近RTX 3080的6成。
实际上,在进行GPGPU测试时,RTX 2080 Ti的运行频率达到了1910MHz,所以虽然流处理器数量只有一半,但是浮点性能却能达到6成。
RTX 2080在进行GPGPU测试时,运行频率更是高达1938MHz,单精度浮点运算性能达到了11416GFLOPS,约为RTX 3080的40%。要知道RTX 2080 2944个流处理器只相当于RTX 3080 8704个流处理器的1/3。
所以现在大家应该知道了RTX 3080 TDP如此之高的原因!即便是320W的TDP,也难以满足让8704个流处理器以较高的频率运行的功耗需求。
三、安培构架解析:RTX IO技术实现“秒进游戏”
多年以前,当笔者还在用机械硬盘的时候,想象着如果硬盘能像内存一样快,就可以秒进游戏,不用再等待漫长的加载了!
索尼新一代的次世代主机PS5有一个卖点,凭借着读取速度高达5.5GB/s的高性能SSD,可以实现“秒进游戏功能”。
不过事实上,这里的秒进游戏是有限制的,它只是进入了游戏的菜单界面,并没有进入能够控制人物行动的游戏画面。并且实际上即便PS5的SSD读取速度再翻倍增长到10GB/s,也难以实现秒进游戏画面。
传统的游戏数据,首先要从磁盘读取到内存。然而从硬盘复制过来的游戏数据包是无法直接使用的,需要CPU先将将数据解包。特别是GPU要使用的时候,数据通过CPU解包之后再经由PCIe总线传递给显存。
当SSD速度足够快的时候,CPU解包速度就会成为决定了游戏加载时间的长短。然而CPU只是一块通用处理器,进行专业运算时的性能极其有限。市面上常见的MMORPG以及电子竞技游戏,最强的i9-10900K处理器大概要经过10秒的运算才能完成全部的解包工作。
也就是说,即便你用超大容量DDR4内存做成虚拟硬盘,将整个游戏放入内存盘中,也需要10秒左右的时间才能完全进去游戏。
NVIDIA的RTX IO技术,可以让游戏在加载时完全规避CPU,直接从SSD写入到GPU的显存中。GPU的浮点性能数十倍于CPU,可以瞬间完成数据的解包工作。
此时若你当你配备了足够快速的SSD(比如Intel 905P),就能实现秒进游戏的功能,从此不用再等待漫长的游戏加载过程。
RTX IO技术需要DirectStorage API的支持。根据微软的计划,DirectStorage在2021年会向游戏开发商递交开发预览,正式开始应用可能需要等到2022年。
四、安培构架解析:新的ROP单元、NVIDIA Reflex 、NVIDIA Broadcast
1、ROP单元的改变
也许很多同学不知道,以往的NVDIA GPU,ROP单元一直都是被集成在内存控制器中!
也就是说同样一颗GPU,如果位宽不变,只是阉割流处理器的话,它的ROP数量是不会变的。例如GTX 1080与GTX 1070同为GP104核心,位宽都是256Bit,所以他们的ROP数量都是64个。即便是GTX 1080有2560个流处理器,GTX 1070被阉割到了1920个也不会对ROP数量产生影响。
而同一颗GPU核心,如果阉割位宽的话,那么它的ROP数量相应地变少!例如GTX 1080 Ti与TITAN X Pascal同为GP102核心,TITAN X Pascal拥有完整的384Bit位宽,因而它的ROP数量也是完整的96个。而GTX 1080 Ti由于显存位宽被阉割到了352Bit,ROP数量也就减少到了88个。
从GA10x GPU开始,ROP单元正式成为了GPC的一部分,用于匹配流处理器,以改善抗锯齿性能。完整的GA102核心有7个GPC,每个GPC内置16个GPC,共112个ROP。
2、NVIDIA Reflex
游戏玩家,特别是网络游戏对延迟很敏感,这个延迟不仅仅跟网络、显卡性能有关,还跟系统有关,包括键鼠的输入延迟等。
NVIDIA Reflex就是一款可以降低延迟的工具,在支持该技术的游戏中,如《Apex英雄》、《使命召唤:战区》、《堡垒之夜》、《VALORANT》等热门电竞游戏,可将延迟降低50%。
此外,NVIDIA Reflex未来还会有个Reflex延迟分析器(Reflex Latency Analyzer),它可监测鼠标点击,并测量屏幕上相应像素变化所需的时间,比如枪焰闪光,效果堪比超过7000美元的专用高速摄像机和设备。
3、NVIDIA Broadcast:游戏直播助手
如今游戏跟直播息息相关,NVIDIA Broadcast软件可以让游戏主播更加轻松省力,它通过显卡的AI加速实现了多种功能,比如噪音消除、虚拟背景、自动框显,从而提升麦克风和网络摄像头的效果。
五、图赏:有史以来做工最好的公版显卡 很完美的风道设计
包装盒的风格从图灵时代的绿黑配色变成了纯黑色。
打开包装盒除了显卡之外,还附赠一条双8Pin转12Pin的转接线。
显卡的正面有一个风扇,吹出的热风是直接从I/O接口处排出,可以极大程度上缓解机箱的散热压力。
背面也有一个风扇,风是直接往机箱下面吹,并不是像部分玩家想象的那样将热风吹向了CPU。
由于没有PCB的阻挡,即便是在较低的转速下,风扇也能够更加轻松的吹透散热鳍片。
顶部视角图,中间有一个12Pin供电接口。
12Pin接口特写。
底部视角图。
需要注意的是,虽然顶部与顶部看起来有鳍片暴露在外,但实际上这两2处并不会出风,也就是不会有热量排出,可以避免伤害通常位于显卡下面的NVMe SSD,不至于温度过高。
背面的风扇。
取消了Type-C接口,只有3个DP 1.4与一个HDMI 2.1接口。
拆下来的散热器。
散热底座周围都是大面积的均热板,GDDR6X显存也有导热背贴覆盖,显存的温度也能得到很好的控制。
金属背板。
非常奇特的PCB设计。18相供电电路设计,另外还有2个空焊位,应该会在RTX 3090补齐,届时会有20相供电。
PCB板的背面,由于空间原因,供电电容被放在了这一面。
NVIDIA非常激进,每一相供电竟然配备了3个高成本的钽电容。
GA102-200-KD-A1核心,8704个流处理器,核心面积628.4mm2,拥有283亿个晶体管。
供电电路特写。
美光的GDDR6X显存,一共有10颗,单颗容量1GB,总容量10GB。频率19GHz,位宽320Bit,显存带宽760GB/s。
12Pin供电接口填写。
输出接口特写。
PCB背面的钽电容。
六、测试平台:全核5.2GHz的i9-10900K + 皇家戟4000MHz C15 32GB内存
在i9-10900K与锐龙9 3900X之间纠结了一下,最终还是选择了i9-10900K处理器。为了降低CPU的瓶颈效应,我们将i9-10900K的核心频率超频到了5.2GHz,Ring频率超频到了4.8GHz。
主板用的是ROG MAXIMUS XII EXTREME。这款主板采用16+0供电,16相供电全部给了CPU核心,0相给核显。MosFET升级为TDA21490,这是目前最高规格的一体化MOSFET,导通电流也从55A提高到了90A,可以轻易提供超过1000W的输出功率。
芝奇皇家戟F4-4000C15D 8GBx4套装,不仅拥有4000MHz的频率,15-16-16-36的时序也是低的吓人,比绝大部分3000MHz频率的内存都要低,不过默认电压1.5V也算是比较高的了。
长江存储致钛PC005 Active 512GB SSD,顺序读写速度分别为3500MB/s,2900MB/s。不依赖模拟SLC缓存也能保持550MB/s的稳定写入速度,同时寿命远远高于市面上绝大多数TLC SSD。
酷冷至尊P360 ARGB水冷散热器,应该是市面上颜值最高也最易安装的水冷散热器,可以很轻松的压制5.2GHz的i9-10900K处理器。
华硕玩家国度PG27UQ ROG 27英寸IPS电竞显示器。
4K UHD(3840*2160)分辨率、4ms响应时间、144Hz刷新率、G-Sync 技术、IPS+量子点面板、10bit色彩、DisPlay HDR1000认证。依旧是目前市面上顶级的电竞显示器。
七、理论性能测试:3DMark Fire Strike Extreme首破2万 默频可达2025MHz
1、3DMark Time Spy
在2K分辨率3DMark Time Spy测试中,RTX 3080图形分数达到了17698分,核心温度最高76℃,核心运行最高频率为1965MHz,最高风扇转速1787RPM,最高功耗329W。
在4K分辨率3DMark Time Spy Extreme测试中,RTX 3080图形分数达到了8876分,核心温度最高76℃,核心运行最高频率为1750MHz,最高风扇转速1810RPM,最高功耗335W。
从3DMark Time Spy的成绩来看,RTX 3080在2K分辨率下的分数比RTX 2080高了将近7000分,领先幅度为62%;与RTX 2080 Ti相比,也能多出3630分,领先幅度为26%。
在4K分辨率下,RTX 3080比RTX 2080多了3787分,领先幅度来带了74%;相比RTX 2080 Ti也有2249分的优势,强了34%左右。
2、3DMark
在2K分辨率3DMark Fire Strike Extreme测试中,RTX 3080图形分数达到了20979分,核心温度最高68℃,核心运行最高频率为2025MHz,最高风扇转速1323RPM,最高功耗333W。
在4K分辨率3DMark Fire Strike Ultra测试中,RTX 3080图形分数达到了10785分,核心温度最高63℃,核心运行最高频率为1995MHz,最高风扇转速1521RPM,最高功耗322W。
RTX 3080是第一张3DMark Fire Strike Extreme图形分数破2万的显卡。在2K分辨率下,它比RTX 2080多了7897分,领先幅度为60%;比RTX 2080 Ti则要强了29%。
到了4K分辨率下,RTX 3080能比RTX 2080多4403分,领先优势为70%,同时比RTX 2080 Ti也要快了34%。
八、1080P分辨率测试:5.2GHz的i9-10900K也无法发挥它的全部性能
1、APEX英雄
《Apex英雄》没有提供测试程序,为了减少测试时变量的干扰,我们选取在训练场进行帧数测试,测试时手动调整为最高画质。我们在训练场录得的帧率与实战时的帧率较为接近,因此有一定的参考价值。
在《APEX》中,RTX 3080的帧率达到了284FPS,比RTX 2080 Ti高出51帧,比RTX 2080高了104帧。
2、使命召唤16:战区
《使命召唤:战区》在1080P分辨率最高画质下,RTX 3080能轻松跑出221FPS,比RTX 2080 Ti高了48帧,比RTX 2080多出64帧。
3、GTA V
以下是我们在《GTA V》中的参数设置,1080P分辨率下,显存占用为3442MB。另外,在进阶影像设定中,所有设置项都调到了最高值。
《GTA V》在1080P分辨率下处理器性能是最大的瓶颈,即便如此,RTX 3080也跑出了139FPS的帧率,比RTX 2080 Ti高5帧,比RTX 2080高了11帧。
4、刺客信条:奥德赛
RTX 3080在《刺客信条:奥德赛》1080P分辨率下跑出了超过百帧的成绩,比RTX 2080 Ti高了11帧,比RTX 2080高了22帧。
5、德军总部:新血脉
RTX 3080在《德军总部:新血脉》中跑出了惊人的351FPS的帧率,比RTX 2080 Ti多了65帧,比RTX 2080多了113帧。
6、地平线:零之曙光
在1080P分辨率下,RTX 3080的帧率是135FPS,比RTX 2080 Ti多了16帧,比RTX 2080多了37帧。
7、孤岛惊魂5
在i9-10900K的强力支援下,RTX 3080的《孤岛惊魂5》1080P帧率也有183FPS,不过这个游戏在1080P分辨率时过于需求CPU,因此并没有和RTX 2080 Ti拉开多少差距,只有2帧的优势,不过比RTX 2080则多了29帧。
8、古墓丽影:暗影
即便是超频到5.2GHz的i9-10900K处理器,在将近一半的场景中渲染耗时都高于RTX 3080。
《古墓丽影:暗影》同样也是一个极度需求CPU性能的游戏,虽然i9-10900K依旧是瓶颈所在,但RTX 3080还是跑出了193FPS的恐怖帧率,比RTX 2080 Ti多了30帧,比RTX 2080多了56帧。
9、绝地求生
突破300帧了。
有了RTX 3080,即便是240Hz的显示器也能被喂饱。RTX 3080的帧率达到了316FPS,比RTX 2080 Ti多了47帧,比RTX 2080多了115帧。
10、微软模拟飞行2020
显卡杀手级的游戏!我们选择的是训练场景。
在《微软模拟飞行2020》中,RTX 3080的帧率为116FPS,比RTX 2080 Ti多了21帧,超出RTX 2080有37帧。
11、死亡搁浅
在这个游戏中,RTX 3080跑出了217FPS的帧率,比RTX 2080 Ti多了31帧,比RTX 2080要多60帧。
12、巫师3
原本《巫师3》是一款非常消耗GPU的游戏,然后RTX 3080实在太强,导致i9-10900K第一次在这款游戏中成为了瓶颈,跑出了158FPS,比RTX 2080 Ti高了16帧,比RTX 2080高了41帧。
13、无主之地3
在《无主之地3》中,RTX 3080的帧率为119FPS,比RTX 2080 Ti刚好多了10帧,比RTX 2080多了35帧。
14、战地5
《战地5》锁死了200帧,于是RTX 3080就跑出了200帧,比RTX 2080 Ti高了13帧,比RTX 2080多了47帧。
15、战争机器5
1080P分辨率下,RTX 3080在《战争机器5》中能跑出168FPS,比RTX 2080 Ti高了32帧,比RTX 2080多了47帧。
对于顶级新卡而言,1080P分辨率下CPU的性能是系统瓶颈所在,不过在这个分辨率下RTX 3080依然能比RTX 2080强38,比RTX 2080 Ti快16%。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
本文地址:/Hardware/xianka/94473.html