这是AMD自Radeon HD 2000系列以来首次改变显卡的命名规则,命名的改变让很多用户一时间都难以接受,对新产品尤其是代号为Hawaii(夏威夷)的Radeon R9 290X充满了好奇甚至是怀疑。RadeonR9、R7 200系列显卡究竟是AMD由内到外的一次显卡革命,还是换汤不换药的普通产品?本文将站在玩家的角度,对AMD该系列显卡进行全面分析和测试。究竟是以GeForce GTX 780、GTX Titan为代表的NVIDIA显卡更出色,还是以夏威夷为代表的AMD新显卡更强势?我们拭目以待。
在上一期中,本刊曾对当时尚未发布的Radeon R9、R7 200系列显卡进行了初步的预览,对R9、R7 200系列的命名规则、产品规格、产品设计思路、新加入的一些技术等基本资料进行了介绍。今天本文将更为细致地分析、测试该系列的显卡。我们先简单来梳理下AMD新产品的命名规则:商标(Radeon)+代号(R)+产品定位(从9到7甚至更低)+三位数字(第一位表示产品代次、第二位和第三位表示版本细分)
比如Radeon R9 280X是表示AMD Radeon R系列显卡面向顶级玩家的9系列,是第二代产品,具体型号为80,X是更为强调性能的Extreme的缩写。此外,三位型号数字在同一代显卡中,数字越小,性能越低。比如Radeon R7 260X,就是面向中端用户的7系列,同为第二代产品,型号为60X。60X是小于80X的,因此性能更低。相比之前的“商标名称+HD+四位数字型号”的方式,更为鲜明地突出了产品面向的用户群体,比如R9、R7的划分,这对玩家的选购有一定帮助。从今以后,AMD显卡将全面使用这个命名规则。
在此次AMD发布的Radeon R9、R7 200系列中,一共有4个型号,它们分别是代号为Hawaii的Radeon R9 290X,价格在4799元左右,竞争对手是GTX 780;代号为Tahiti的Radeon R9 280X,价格在1899~2099元,竞争对手是GTX 760;代号为Pitcairn的Radeon R9 270X(它和Radeon HD 7870的Pitcairn是完全相同的核心),价格在1399~1599元,竞争对手是GTX 660;代号为Bonaire的Radeon R7 260X(实际上是以前只出现在OEM市场的RadeonHD 779 0),价格在999~1099元,竞争对手是GTX 650 Ti。此外,R9 290X、R9 270X、Radeon R7 260X均有公版产品,而R 9280X则没有公版产品,留给下游厂商自行发挥,因此市面上的R9280X皆为非公版产品。
根据已知的消息来看,Radeon R9、R7 200系列还会有两款产品,分别是代号为Hawaii的Radeon R9 290,代号为Oland Pro的Radeon R7 240。这其中,Radeon R9 290会很快发布,而Radeon R7 240面向入门级市场,据悉这款产品目前虽然还没有太多明确的消息,但很快也会发布。
从严格意义来说,在此次AMD新发布的显卡中,只有代号为Hawaii的Radeon R9 290X采用的是全新设计的核心。Radeon R7 260X虽然没有在非OEM市场上销售过,但很早前就已经面世。至于Radeon R9 280X和RadeonR9 270X,按照一些玩家的说法,它们就属于“马甲卡”了。因为它们分别和上一代的Radeon HD 7970和Radeon HD 7870所采用的核心是完全一样的,只是新显卡的频率更高而已。
毫无疑问,在此次AMD的新显卡中,代号为Hawaii的Radeon R9 290X无疑是备受关注的。
在分析Hawaii的架构之前,需要说明的是,目前无论是AMD还是NVIDIA,给出的产品架构图,都是基于市场和宣传的需要而制成的,其中隐含了大量的细节信息,同时也凸显了厂商愿意向消费者披露的信息。严重一些说,这些架构图只是厂商给出的一张画而已,和芯片内部的设计、排序是有关系的,但不会完全一致,甚至大部分都不一致(当然功能模块还是都在的)。因此,普通消费者只能看看就好,并抓住其中几个关键性的内容来了解芯片设计即可。从Hawaii的架构图总体来看,可分为三个部分,下面我们一起来看看。
此次在Hawaii的架构图上,AMD设计了四个Shader Engine(类似于NVIDIA的GPC),每个Shader Engine中有11个CU单元,每个CU单元有4×SIMD-16个,总计64个的Vector Unit(向量计算单元,由ALU组成),因此总计就是4×11×6 4=2816个流处理单元(ALU)。此外,每个Shader Engine单元都有自己的几何单元,也就是Geometry Processor,用于几何计算。相比上代GCN只设置了2个Geometry Processor而言,Hawaii在几何处理方面特别是曲面细分性能方面又有大幅度的提升。当然在实际游戏中是否有如此强悍的表现,还需要看游戏对曲面细分的应用程度和优化如何了。
继续深入到CU单元这一层级来看,相比之前GCN的CU单元而言,新的Hawaii的CU单元并没有大的差别。总的来看,每一个CU单元中有4个16路的SIMD计算子模块(每个SIMD模块拥有16个ALU,一共组成16路,可以处理同时并行的16个乘加指令计算),还配备了4个64KB的矢量寄存器(每个SIMD计算子模块各1个)。这4个16路的SIMD计算子模块是CU的数据执行基础。从单个CU的角度来看,1个CU在每个时钟周期内可以执行4个不同的16路矢量线程,可以称为MIMD(多指令多数据流)。而这4个矢量线程在执行时每个线程内都使用的是16路的SIMD计算子模块,因此Hawaii在底层上采用了单指令多数据流的设计方式,这和GCN是完全一致的。
总体来看的话,AMD依旧使用了SIMD阵列作为数据执行基础,但在更高一级的层面上采用了四路SIMD单元并行的设计方案。在实际数据操作中,AMD设计的线程调度器会每次派发64粒度的线程给CU单元,CU单元将其直接分配给由4个16路SIMD组成的计算单元计算,在理想的情况下一个CU单元一个周期就可以执行64粒度的线程操作。此外,AMD说明了这44个CU单元也就是2816个流处理单元都支持IEEE 2008标准,还增加了一些额外的功能,总的来说属于比较微小的改进。
不难看出,在基础架构上Hawaii和上一代GCN是基本一致的,特别是在CU单元这一层面上。只是前者的计算单元更多,性能更强大。当然,AMD在Hawaii 上的重大改进还是有的,主要是以下内容。
AMD大幅度增加了ACE模块,并引入了新的Shader Engine结构层(或许在GCN上已经存在)。这里的变化比较重要。GCN一共有32个CU单元,两个Geometry Processor,2个ACE单元。如果认为GCN上也有Shader Engine结构层的话,那么GCN会存在2个Shader Engine结构层(也可能存在4个)。在Hawaii上,情况变化了。在一个Shader Engine中,CU单元增加到了11个,每个Shader Engine的ACE单元增加至2个,Geometry Processor也是每Shader Engine配备一个(由于四个Shader Engine的存在,Geometry Processor还是增加到了4个,原来GCN为2个)。
这样就比较明确了:Hawaii大幅度增加了GPU内部线程调配的能力(大幅度增加ACE单元数量、调配能力并调整每个Shader Engine;加强几何处理能力;相应地增加了光栅单元;增加了缓存容量。从这里可以猜测一下AMD这样设计的原因:很可能AMD经过模拟测试,发现GCN的瓶颈在于线程调配的拥挤(此外还有应对未来OpenCL线程控制的问题),因此AMD干脆一口气给予Hawaii大量而充分的线程调配模块,以应对CU单元的扩充。此外,诸如缓存和光栅单元的加强,也让Hawaii有了更进一步性能提升的资本。
这样大幅度的加强性设计,终的结果就是让Hawaii在面对重负载测试时,能够有更为优秀的表现,毕竟轻负载计算GCN已经表现得很不错了。Hawaii的出现,结合近炒得火热的4K分辨率以及SSAA抗锯齿等消息,可能是AMD在硬件配合软件发展上埋下的一个伏笔。
在Tahiti发布时,AMD给出了有关GCN架构详细缓存结构的说明。在Hawaii上,目前还没有类似的信息。不过可以看出AMD没有对Hawaii的缓存结构做出调整,只是在细节和容量上有一些改进。比如原来Tahiti的768KB可读写L1/L2缓存增加至1MB,L1和L2的缓存带宽也提升到了1TB/s,无论是容量还是带宽都相比前代产品增加了33%。在结构方面,L2缓存被划分为16个64KB的区域,用于在计算中存储不同的数据。
除了缓存外,还需要关心的是Render Back Ends(缩写为RBE或者RB),也就是NVIDIA口中的ROP,即大家都知道的光栅化单元。在架构图中,光栅化单元是画入Shader Engine中,每个Shader Engine有四个RBE模块,每个RBE模块中有4个光栅化单元,这样总计就有64个光栅化单元。相比前几代高端显卡的48个光栅化单元,Hawaii这次将光栅化单元一次提升到64个,每周期可以处理64bit的像素信息,大幅度提升了GPU在高分辨率和高抗锯齿下的性能。
在内存控制器部分,Hawaii很值得一提。AMD这次为它设计了8个内存控制器模块,每个模块为64bit位宽,总计512bit位宽。上一次AMD使用512bit还是在Radeon HD 2900XT上,不过当时AMD使用的是环状总线Ring bus,这次AMD应该换成了传统的CrossBar交叉总线模式。不过比较奇怪的是,Hawaii上的512bit显存控制器并没有带来晶体管数量和核心面积的暴增(NVIDIA的GT 200也使用了512bit,晶体管数量和核心面积大幅度增加,芯片面积在600平方毫米左右,为史上大GPU)。根据AMD的说明,在Hawaii上,AMD重新设计了显存控制器,整体面积相比384bit的Tahiti显存控制器反而小了20%,终结果是总带宽增加了20%(相比Tahiti),每平方毫米显存位宽增加了50%。
在Hawaii的显存位宽数据曝光后,很多人都惊呼AMD得到了“黑科技”,采用512bit显存位宽又保持了较小的核心面积似乎是不可能同时存在的。不过AMD在Hawaii显存部分的显存频率只有区区5000MHz,相比同期NVIDIA在GTX 770等显卡上高达7000MHz的显存频率而言,AMD的新卡为什么显存频率反而降低了呢?
实际上,显存控制器之所以能上高频率,除了和搭配的显存颗粒的规格相关以外,还因为它内部需要很多缓存和缓冲区,用于临时存放没有同步的数据。这些缓存区域的设计比较耗费晶体管,但如果想显存频率高,又不得不用它们。根据一些业内消息,AMD在Hawaii上使用的是之前Radeon HD 7870 GPU上显存控制器的改进版本,HD 7870的显存频率一直徘徊在5000~5600MHz之间,且不容易超频,就和显存控制器本身的设计有关。虽然频率较低,但这种显存控制器的体积却比较小,只有高速控制器的大约一半左右。AMD经过详细的对比,分析了“高频率+较小位宽”和“较低频率+较大位宽”的优劣后,发现如果使用大位宽的话,在差不多相同的条件下,反而能获得更高的显存带宽。不仅如此,如果使用较低频率的显存颗粒,还能在成本上节省不少。因此终AMD使用了一个较低频率显存、但是位宽高达512bit的设计。
R9 290X在新驱动的配合下,可以允许用户更为自由地在温度、性能和功耗之间做出选择。
外围模块部分主要是诸如VCE、UVD、DMA、PCI-E 3.0界面。其余的部分由于和之前的GCN基本相同,在这里本文详细介绍一下ACE和新加入的TureAudio模块。
ACE模块的全称是Asynchronous Compute Engines,异步计算引擎。这个模块的作用是在GPU的前端调配任务、分派线程和指令,ACE相当于任务管理员,管理着手下2816个计算员。ACE单元早出现在Cayman GPU上,后来在Tahiti GPU上被大幅度加强,Tahiti的ACE单元每周期可以调配2个请求。在Hawaii上,AMD一口气将ACE单元增加到了8个,每个ACE都可以管理多8个请求,总计每次多可以调配64个请求,还可以访问L2缓存和全局共享数据。目前AMD在Hawaii上的ACE单元和出现在PlayStation 4以及XBOX One上的ACE单元是一样的,都是每周期可以调配8个请求。
一般来说,目前PC中的音频部分都是由CPU来计算的。特别是在游戏中,CPU的负载会很重,一些比较复杂的音频计算往往会考虑到CPU负载等问题会被省掉,因此PC中目前的游戏音效表现一直都很一般。TrueAudio技术实际上是AMD在GPU中集成了一个模块,被称为TrueAudio,它是一个专门来处理声音、改善音效的数字信号处理器。AMD的TrueAudio来源是专业应用处理器厂商Cadence收购的Tensilica研发的HiFi EP DSP,AMD大概会在GPU中使用1~10个DSP单元。有了这个单元专门处理音效的话,CPU大概可以节省约10%的性能给其他应用。
AMD在Tahiti的第二代产品RadeonHD 7970GHz上正式启用了功耗和频率联动控制的设计。不过显然Tahiti本身核心没有内置相关硬件功能组件,其相关功能是由BIOS软件控制完成。因此AMD的GPU频率控制也和人们惯常意识中的频率控制、尤其是NVIDIA和英特尔的频率控制技术有很大不同。
在NVIDIA的开普勒家族上,NVIDIA设定了一个基准的物理频率,在绝大部分情况下,GPU运行频率是不太可能低于基准物理频率的。比如GTX 680,一般运行状态下频率会高于基准的1006MHz,高可以达到1200MHz。在NVIDIA以及英特尔、AMD的CPU上,这种动态的频率调整是正向的,是以“低频到高频”为设计基础的。
但是在AMD的Radeon HD 7970GHz以及目前的R9 290X上,AMD的设计却反了过来。以R9 290X为例,AMD官方宣称这款显卡的频率“高”可至1GHz。这个“高”是什么意思呢?实际上R9 290X设计了温度和频率反向控制的机制。在温度没有达到警戒线时,显卡会运行在1GHz的高频率上以获得不错的性能,一旦温度触碰到94℃的高温警戒线,显卡会降低一个频率档次到900MHz左右,再次触碰则再次降低。经过多次反复循环,GPU会运行在一个较低、但是相对安全的温度下。比如在测试中,可观察到的低频率大约在770MHz左右。此时由于频率较低,R9 290X的性能相比在1GHz时会有较明显的下降。
Hawaii的设计和在移动处理器上使用的高温降频技术如出一辙。这种设计会使得显卡的性能和温度表现有一定相关性,很可能会出现采用第三方散热设计的非公版Hawaii显卡在没有改变PCB和BIOS设计的情况下,仅由于散热的改变使得性能更为优秀。
AMD目前在Hawaii芯片的功耗控制上也不算很成功,功耗甚至逼近规模更大的GTX Titan,当然后者的频率和电压都要低一些。再加上Hawaii 94℃的上限温度设定和反向降频的功能,显然AMD更多考虑的是性能而不是更好的功耗表现。此外,AMD开发了新的PowerTune功耗控制技术。由于在R9 290X上使用了新的PWM芯片,因此它可以更为精细地控制电压并降低电压切换时间,新的IR3567PWM芯片支持0~1.55V之间的256级电压调节并能够降低电压切换时间至10us,表现更优秀了。此外AMD还允许用户更为自由地在温度、性能和功耗之间做出选择,这些新功能已经被集成在新的催化剂用户界面中方便用户使用了。