英特尔在今年发布了第11代酷睿处理器桌面版Rocket Lake-S。虽然延续了14nm制程工艺,但它的变化可以用翻天覆地来形容,内核微架构部分采用了Cypress Cove(Sunny Cove的14nm反向移植版本),带来了高达19%的平均IPC提升,以及对AVX-512指令集的支持,和在桌面平台延续5年的Skylake微架构大不相同。
“大核心”的代价
将原本基于10nm节点所设计的微架构反向移植到老旧的14nm节点,虽然可以在制程工艺不变的情况下提高性能,但这并非没有代价。由于Cypress Cove的每核心晶体管数量对比Skylake大幅增长,Rocket Lake-S为了控制芯片面积,最高规格只有8核心16线程,比Comet Lake-S家族的10核心20线程更少。
下图为外媒制作的Skylake与Cypress Cove的面积对比,在同样14nm制程工艺的情况,Cypress Cove单个核心面积达到10.94mm²,增大约37%,尤其是为了支持AVX-512指令集及拓展子集,Cypress Cove在FPU/SIMD部分的增加了非常多的晶体管。因此即便减少了2个核心,但Rocket Lake-S的芯片面积依旧达到了270mm²,比上一代10核Comet Lake-S的206mm²要更大。
“14nm、AVX-512、超大芯片面积、5GHz频率”,这几个关键词结合在一起,让Rocket Lake-S性能提升的同时,也产生了新的问题,那就是备受关注的高功耗和与其对应的高发热量。
不过对于一般用户来说,在日常使用中Rocket Lake-S功耗真的有那么夸张吗?如何改善Rocket Lake-S的能耗表现?Rocket Lake-S高功耗的“罪魁祸首”AVX-512指令集又能带来哪些提升?带着这些问题,笔者进行了一些有意思的测试。
烤机压力测试
本次测试使用了酷睿i7-11700K处理器,和旗舰酷睿i9-11900K同样是8核心16线程规格,但频率略低一些,在英特尔睿频加速Max 3.0技术的加持下单核睿频可达5.0GHz、多核睿频为4.6GHz。测试平台搭配Z490芯片组主板,总容量为32GB的3200MHz双通道内存,以及追风者TC14PE散热器等配置。测试时采用开放式平台,环境室温为26℃。
进行单烤AIDA64 FPU压力测试,并能通过HWiNFO64对运行状态进行监控。可以发现,如果是默认开启AVX-512指令集的情况下,酷睿i7-11700K跑满4.6GHz全核心睿频时的功耗可高达250W以上,追风者C14PE这样的风冷无法很好压制,因此烤机时温度在一瞬间就超过100℃,导致酷睿i7-11700K只能降频在全核心4.3GHz运行,但即便是降频后功耗依旧超过了220W。
为了解决Rocket Lake-S家族处理器烤机时的高功耗问题,华硕、微星等主板在近期更新的BIOS中均加入了AVX2和AVX-512调整功能,可以灵活的设置频率offset或者直接关闭。
下图为华硕ROG STRIX Z490-A GAMING的BIOS界面,默认开启AVX-512,笔者接下里将手动关闭,并测试能耗表现。
以下为CPU-Z的识别信息,分别为手动关闭AVX-512以及默认开启AVX-512。
在手动关闭AVX-512后,继续进行AIDA64 FPU烤机压力测试,可以看到在同样的测试平台、同样的测试环境的情况下,酷睿i7-11700K能够以全核心4.6GHz稳定运行,总功耗控制在200W出头,10分钟后温度稳定在90℃。
而除了AVX-512指令集之外,笔者在测试时发现Rocket Lake-S的默认电压普遍偏高,而这也是导致功耗增长的元凶,因此如果采用手动降压策略,笔者手中的这颗酷睿i7-11700K还有进一步降低功耗的空间。
BIOS中关闭AVX-512后,还将核心电压锁定为1.24V,此时再通过AIDA64 FPU烤机,HWiNFO64监控显示酷睿i7-11700K的功耗可稳定在165W左右,核心温度为73℃,能耗表现获得了进一步提高。当然考虑到处理器的体质区别,以及各型号主板在BIOS调教方面的差异,所以关于降压的具体操作还需要根据每一刻处理器的情况来具体分析,不能一概而论。
常规性能测试
通过前面的测试可以得出结论,无论是否手动调整电压,酷睿i7-11700K关闭AVX-512指令集后的烤机功耗及温度都做到了大幅降低;那么在非烤机时的性能方面,关闭AVX-512后又会产生多大影响呢?针对这个问题,笔者又进行了下面的测试:
CPU-Z作为最流行的基准测试软件之一,目前1.96.1版本包含了4个测试,由于常用的Version 17.01.64测试是不支持AVX-512指令集的,因此在关闭AVX-512后,酷睿i7-11700K的单线程和多线程性能均未受到影响。
Cinebench同样是流行的基准测试软件,基于Cinema 4D开发,目前已经同步更新至R23版本。在R23版本中,Cinebench同样不支持AVX-512指令集,因此酷睿i7-11700K无论开启还是关闭AVX-512指令集,两次测试的性能表现也没有区别。
酷睿i7-11700K关闭AVX-512测试Cinebench R23,单线程1595pts、多线程14908pts。
酷睿i7-11700K开启AVX-512测试Cinebench R23,单线程1591pts、多线程14914pts。
再使用5.0.20版的Benchmark进行测试渲染能力,可以看到酷睿i7-11700K开关AVX-512的两次测试结果完全相同。
从结果上可以看到,由于CPU-Z V17、Cinebenh R23、Vray 5等基准测试均不支持AVX-512,所以酷睿i7-11700K无论是否开启AVX-512,运行这些测试时性能和功耗都不会有显著变化。
AVX-512带来的性能提升有哪些?
虽然Rocket Lake-S在调用AVX-512指令时会产生较高功耗,且当下消费级市场中支持AVX-512的应用较少,但考虑到这很可能是未来的发展趋势(第12代酷睿处理器Alder Lake的Golden Cove微架构、以及AMD Zen 4微架构均会支持AVX-512),笔者也针对AVX-512的具体性能提升,做了简短的测试。
SiSoftware Sandra是一个十分强大的系统分析评测工具,目前已经更新至2021版本,该版本的部分测试项目已经针对AVX-512进行了优化,例如多媒体处理器测试中。关闭AVX-512后,酷睿i7-11700K的总体多媒体功效为962.6百万像素每秒。
开启AVX-512后,即使酷睿i7-11700K因为测试时的温度较高而触发了降频,但总体多媒体功效依旧提升至1.27十亿像素每秒,幅度非常显著。
接下来测试y-cruncher,这是一款高速计算圆周率的软件,不但支持基础的AVX-512F,还支持额外的指令拓展AVX-512 IFMA(具有52位精度的整数融合乘加)能进一步提升了效率。
为了避免内存带宽瓶颈,使用y-cruncher单线程计算250,000,000位数,酷睿i7-11700K关闭AVX-512时花费时间为54.497秒。
酷睿i7-11700K开启AVX-512时花费时间仅为34.717秒,缩短了将近20秒,可谓是非常惊人。
可见在特定场景下,AVX-512确实可以让性能获得显著提升。还要说明一下Rocket Lake-S、Tiger Lake-H45、Tiger Lake-UP3UP4H35、Ice Lake-U等面向普通消费级的酷睿处理器均为半吞吐AVX-512,只有1个512位FMA单元;而像第3代至强可扩展处理器Ice Lake-SP这样面向数据中心的产品,则拥有2个512位FMA单元,理论峰值性能更为强大。
事实上此前AVX-512指令集是英特尔面向数据中心领域的至强可扩展处理器、专业工作站至强W处理器以及酷睿X系列处理器等产品线的专属,从第11代酷睿处理器桌面版Rocket Lake-S以及第11代酷睿处理器高性能移动版Tiger Lake-H45开始,英特尔才将AVX-512指令集大量下放到主流消费级产品。相信随着新产品的逐步铺货,AVX-512指令集的相关软件生态也能够进一步完善。
总结
对于一些已经深度优化的应用负载,AVX-512可谓是一把双刃剑,提升性能的同时也大幅增加了功耗;因此对于少数需求AVX-512的用户,想要让Rocket Lake-S系列尤其是酷睿i7、酷睿i9在运行AVX-512负载时获得稳定的性能释放,不会因为碰到功耗墙或温度墙触发降频,那还需要同步搭配供电能力较为出色的主板,以及顶级风冷乃至240冷排以上的水冷散热器。
但对于绝大多数普通用户来说,由于很少有机会使用支持AVX-512指令集的应用程序,同时更不会频繁开启AIDA64 FPU及P95烤机压力测试,因此对于第11代酷睿处理器Rocket Lake-S所支持AVX-512指令集所带来的高功耗,其实没有必要过分关心,常规的中高端风冷就能够满足Rocket Lake-S在日常使用中的散热需求。再考虑到Cypress Cove微架构的通用IPC改进,也就是说再运行非AVX-512应用程序也能够带来两位数的效能提升,从这一点来看Rocket Lake-S在架构层面算得上一次中规中矩的升级换代。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
本文地址:/bijiben/65597.html