MCPLive > 杂志文章 > 解析CES 2013上的移动处理器(上)

解析CES 2013上的移动处理器(上)

2013-02-16张平《微型计算机》2013年2月上

在CES 2013上,各家移动处理器厂商都纷纷展示自家的新一代移动处理器产品,这其中既有NVIDIA推出的基于Cortex-A15核心的Tegra 4,也有高通的骁龙600和800系列新产品,更有英特尔再次发力移动平台的全新Atom,当然也少不了国内厂商如全智、华为的新消息。那么,这些新款移动处理器都有什么亮点呢?未来这些移动处理器对应的产品形态又是什么呢?

解析CES 2013上的移动处理器(上)

CES一直是各大厂商发布新品,获取消费者和行业用户关注的佳舞台。在今年的CSE上,各种各样的新奇电子产品层出不穷,4K甚至8K分辨率的超高清电视机、可弯曲的显示屏都成为一时热点。但对于移动计算领域来说,CES 2013上重要的还是各家厂商推出的新款移动处理器。其中Tegra 4的发布、高通新的骁龙处理器以及国内厂商在Cortex-A7架构上的发力都有非常精彩的看点。由于内容较多,《微型计算机》将分为上下两期为大家带来CES上发布的移动处理器以及相关产品的介绍。上期的主要对象是全球首款Cortex-A15四核心处理器——NVIDIA Tegra 4。下期将为大家介绍高通新骁龙、Cortex-A7以及其他厂商的ARM处理器产品。

“本届CES上大的亮点莫过于Tegra4的正式发布了”—这句话实际上是错误的。因为NVIDIA在CES 2013正式开幕前就召开了自家的专场发布会。会上不仅发布了下一代移动处理器Tegra 4,还介绍了预谋已久、非常像一台游戏掌机,代号为Project Shield的“掌上电脑”。

全球首款四核Cortex-A15移动处理器

作为一款SOC处理器,Tegra 4实际上是由多颗处理器组成的一个系统。和前代Tegra 3一样,Tegra 4也集成了诸如音频处理、影像处理、视频解码、视频编码、内存管理、闪存控制以及PCI-E、HDMI、USB等管控芯片。但是令人感兴趣的部分则是Tegra 4中拥有“4+1”设计的5个Cortex-A15核心以及大幅度增强的新一代GeForce ULP核心。从NVIDIA的官方介绍来看,Tegra 4拥有如下技术特点:

制造工艺

台积电目前有四种28nm工艺,分别是Low Power(LP)、High Per formance(HP)、High Performance & Low Power(HPL)以及High Performance & Mobile(HPM)。Tegra 4使用了台积电的28nm HPL工艺,应该是看中了其较低的功耗。毕竟四个Cortex-A15核心的功耗压力还是比较大的。

NVIDIA公布的Tegra 4晶圆照片图。不幸的是,NVIDIA有“修改”晶圆照片的“习惯”,所以所展示的图片多数为示意图,并非真正的芯片内部结构。
NVIDIA公布的Tegra 4晶圆照片图。不幸的是,NVIDIA有“修改”晶圆照片的“习惯”,所以所展示的图片多数为示意图,并非真正的芯片内部结构。

频率、晶体管数量和面积

目前曝光的Tegra 4产品只有一款,大频率可以达到1.9GHz,不过目前没有消息说明1.9GHz是四个核心满载时的大频率还是单核心的高频率。

晶体管数量方面,NVIDIA没有公布具体数据,只是有消息说其芯片面积比Tegra 3略大,略大于80平方毫米。对照台积电公布的“28nm工艺的SRAM晶体管面积可比40nm工艺缩小50%”来估计的话,Tegra 4的晶体管数量相比Tegra 3应该翻倍了(NVIDIA也没有公布Tegra 3的晶体管数量)。

内存支持

Tegra 3的单通道内存让其在大部分测试中吃尽了苦头。由于带宽不足,Tegra 3也很难支持分辨率超过1080p的产品。在Tegra 4上,NVIDIA终于“痛改前非”,内存支持双通道LPDDR3、DDR3L或LPDDR2,带宽问题终于得到解决,这样它就可以使用在分辨率达到2560×1600甚至更高的设备上了。NVIDIA在Tegra 4发布现场利用Project Shield输出了4K分辨率的视频信号,并表示Tegra 4高可支持4K分辨率。这其中除了GeForce ULP的大幅度增强外,带宽也起到了很大的作用。

功耗

功耗方面NVIDIA也没有公布具体数据,只是说一般应用下比Tegra 3功耗降低了45%。考虑到Tegra 4目前产品型号还不清楚,很可能NVIDIA还在做进一步调整。但根据同期发布的Project Shield来看,38Wh的电池至少可以供Tegra 4满载工作5小时~10小时,估算一下Tegra 4单颗芯片的大功耗应该在5W左右,还算比较理想。毕竟如果是平板或者手机的话,Tegra 4在实际使用中绝大部分时间功耗都会远远低于5W,并且手机上使用的Tegra 4处理器频率应该会进一步降低。

核心

Tegra 4的亮点就在于其是首款支持四核心Cortex-A15的产品(有关Cortex-A15架构的详细内容,请看本刊2012年9月下《首款Cortex-A15架构处理器解析》一文)。

NVIDIA的第二代“4 plus 1”架构

Tegra 4和前代产品Tegra 3一样,依旧使用了自家研发的“伴核技术”。Tegra 4的伴核也基于Cortex-A15架构,但频率、电压和功耗都要低得多。根据Teg ra 3对伴核的说明,如果应用对CPU性能要求较低的话,会使用伴核处理,这样可以获得比较好的功耗表现,延长移动设备使用时间。一旦应用需要性能增高的话,Tegra 4就会自动启动原生的四核心,并根据应用需求来使用一个、两个、三个或者全部四个核心。当侦测到应用需求降低后,则会迅速切换回低功耗伴核。对系统来说,第五个核心是完全不可见的,系统依旧只能看到四个核心,Tegra 4的第四核心是基于硬件而工作的,不受软件系统的控制。不过对Windows RT来说,Tegra 4的“第五核心”能否正常工作还是个需要进一步探讨的问题。(如果你想回顾有关Tgera 3以及“4 plus 1”设计的详细内容,可以参考本刊2011年12月下《全新NVIDIA Tegra 3处理器技术解析》一文。)

NVIDIA黄仁勋在发布会上宣布Tegra 4处理器,并展示了Tegra 4重要的参数,如4个Cortex-A15核心,72个计算核心的GPU以及对4G LTE的支持。
NVIDIA黄仁勋在发布会上宣布Tegra 4处理器,并展示了Tegra 4重要的参数,如4个Cortex-A15核心,72个计算核心的GPU以及对4G LTE的支持。

目前NVIDIA暂时没有说明第二代“4 plus 1”技术相比前代优势在何处。但根据目前业界节能技术发展来看,第二代的“4 plus 1”技术应该在伴核和原生核心上切换更为智能、更为敏感、切换延迟也会更低。此外,NVIDIA很有可能为四个原生核心也加入了更多的电源管理设计,包括更多的电源状态以及更快速状态监测等。这些技术的综合应用,才有可能让Tegra 4在手机等小尺寸移动设备中使用时获得可以接受的电池使用时间。

采用了Tegra 4的Project Shield“掌上电脑”
采用了Tegra 4的Project Shield“掌上电脑”

相比NVIDIA的第二代的“4 plus 1”技术,ARM官方也提出了如诸如“big.LITTLE”的大小核心搭配技术,让Cortex-A15和Cortex-A7处理器大小搭配,在高性能时使用Cortex-A15处理器,低需求时使用Cortex-A7处理器来节约能耗。这种设计由于不同类型的CPU独立性更高,因此存在切换延迟等问题,暂时还没有产品采用。短期来看,NVIDIA的“4 plus 1”技术是应对Cortex-A15高功耗的好手段了。

新一代的72个计算核心的GeForce ULP

作为业界图形大厂,NVIDIA在Tegra 2和Tegra 3的图形性能表现上的确不怎么“厚道”。Tegra 2集成的GPU只有8个计算核心,Tegra 3只有12个,并且理论性能也严重偏低。因此在各种评测中,Tegra 2和Tegra 3图形测试成绩都不太好看,甚至往往有垫底之嫌。那么Tegra 4的图形性能又如何呢?

NVIDIA Tegra 4内含的GeForce ULP架构图。
NVIDIA Tegra 4内含的GeForce ULP架构图。

在Tegra 4上,NVIDIA终于决定大幅度提升图形性能。新一代的Tegra 4拥有72个计算核心——这在宣传中往往会被“宣称”为“72核显卡”。实际上这72个计算核心不但功能不同,各自有各自的分工,而且本身结构也很简单,称其为“72核心”不够恰当。

从架构来看,Tegra 4的GPU实际上延续了来自于Tegra 2和Tegra 3的架构(继承自Tegra 600),顶点和像素引擎也都是标量设计。Tegra 4依旧是分离式渲染架构,其顶点渲染引擎和像素渲染引擎是分开设计的。这种设计的优势在于,专门的像素渲染单元和顶点渲染单元效率相比统一渲染单元更高,无论是每瓦特性能还是每晶体管性能,因为类似的专用部件可以为能够预知的计算数据结构作出充分的优化,想必这也是NVIDIA慎重考虑功耗问题后的不得已而为之的选择。数据方面,Tegra 4拥有48个像素渲染单元和24个顶点渲染单元(估计有12个纹理单元),恰好是前代Tegra 3的6倍,更是远远高出了Tegra 2。“48+24”也正是“72核心显卡”的数据来源。

Tegra 4中GeForce ULP架构深入分析

Tegra 4拥有24个顶点单元和48个像素单元,这个数据看起来非常庞大。相比NVIDIA在GeForce 7900GTX上使用的8个顶点渲染管线和24个像素渲染管线,Tegra 4的GeForce ULP至少在数据上看起来好很多。那么实际结果真的是这样吗?

只要仔细分析就可以知道,在这里无论是48、72、24还是8,都只是商业上的宣传而已,实际情况完全不是这样。对于GeForce 7900GTX使用的G71这种古老架构来说,每个像素渲染管线中拥有2组ALU,每组ALU每周期可以执行一个Vec3+Scalar指令(也就是V LI W 3D+1D模式)。在550MHz频率下,每像素渲染管线的理论计算能力约为15GFlops。顶点部分相对比较简单,每个顶点单元具备一个的V LIW 4D计算能力,在550MHz下,单个像素渲染管线的计算能力大约是5.5GFlops。

来看Tegra 4的GeForce ULP。虽然很多资料都宣称GeForce ULP和NV 40以及G71的架构隶属关系,不过GeForce ULP只有顶点渲染部分和NV40以及G71架构相似度比较高,每4个ALU捆绑成一组组成VLIW 4D模式; GeForce ULP的像素渲染部分和NV40以及G71却有着很大不同,似乎是完全不同的设计方案。

Tegra 4的GeForce ULP像素部分拥有48个像素单元(48个ALU ),但是这48个ALU每四个组成一组,组成类似VLIW 4D的结构(G71是VLIW 3D+1D,每个像素管线每周期可执行2个VLIW 3D+1D指令),然后每三组组成一个像素渲染模块。在实际操作时,每周期可以同时计算四组包含三个像素数据的指令。因此,在统计计算时,如果不考虑每三组像素数据绑定的问题,可以简单地认为Tegra 4拥有12个“缩水版”像素渲染单元。和G71的像素部分相比,Tegra 4的GeForce ULP无论是架构设计还是实际性能上都差别巨大,不说G71中包含了可以执行多个复杂计算的单元,单看每像素渲染引擎的计算能力,G71的1条像素渲染引擎理论计算能力差不多和15个GeForce ULP的计算单元相当。折算下来,在550MHz下,整个GeForce ULP的计算能力约为80GFlops,和6条G71的像素渲染引擎的理论计算能力相当。

这样的性能意味着什么呢?为了更方便理解,可以单纯看理论计算能力:在550MHz下,Tegra 4的GeForce ULP的性能(80GFlops)会比GeForce G210(67GFlops左右,比较老的桌面入门级独立显示卡)强一些,大概是GeForce GT 610(155GF lops)的一半。如果实际产品频率再高一些,那么Tegra 4的GeForce ULP性能还会更强,不过强也不会超过GeForce GT 610的的水平(GeForce GTX 680的计算能力大约3090GFlops)。即使如此,放在移动平台上也应该足够应付了:就算Tegra 4的GeForce ULP的频率和上代Tegra 3的520MHz相当,那么其理论性能也高达74.8GFlops,已经超越了iPad 4 A6X所使用的四模块PowerVR 554MP4所拥有的71.6GFlops。需要特别强调的是,理论性能或者部分测试软件的成绩仅仅是用于衡量硬件架构设计的一种参数,GPU真正在游戏中所能反映出来的效果和实际画面,和理论性能相关度其实并不高。

其他规格和特性

如果深究起来,Tegra 4的移动GPU部分可能存在的问题并非性能和分离式渲染架构,而是其对目前部分规格支持的问题,其中重要的就是Tegra 4的GeForce ULP很可能无法完全支持OpenGL ES 3.0。

和之前预测的有所不同的是,在Tegra 4发布之前,部分爱好者和预测人员认为Tegra 4可能使用源自开普勒架构的CUDA Core,因此在图形部分可能支持DirectX 11、CUDA和OpenCL以及OpenGL ES 3.0,但是实际产品却令人大跌眼镜,Tegra 4的GeForce ULP甚至只能支持到OpenGL ES 2.0,其余的什么CUDA、DirectX 11更是想都不要想。

针对Tegra 4优化的《死亡扳机2》
针对Tegra 4优化的《死亡扳机2》

一些消息称部分厂商的移动GPU已经开始对DirectX 11和OpenGL提供支持,其中ARM的Mali-T600系列以及PowerVR SGX 6表现得比较积极。不过就算支持了DirectX 11,考虑到实际应用在移动设备中的产品性能顶破天只有GeForce GT 610的性能,那么你还考虑DirectX 11、CUDA和OpenCL的支持吗?这些支持在绝对的性能弱势面前一点意义都没有。

在发布会上展示多人利用“Project Shield”和NVIDIA GFE进行游戏对战。
在发布会上展示多人利用“Project Shield”和NVIDIA GFE进行游戏对战。

作为移动平台上重要的API标准,Open GL ES才是真正的王道,新的OpenGL ES 3.0加入了很多新的功能。比如更多的纹理格式、MSA A抗锯齿、多重目标渲染、遮挡查询以及几何实体化等。这些新加入的内容大部分都是重要的功能,在很大程度上能改善移动平台上的图形表现。Tegra 4的图形部分是否真的不支持OpenGL ES 3.0,目前还没有得到很官方的确认。不过从NVIDIA给出的资料来看,至少Tegra 4可以支持MSAA、帧缓冲压缩、百分比渐进过滤以及24-bit Z/Stencil ROP等内容,大可支持的纹理分辨率也从大纹理分辨率2K×2K提高到4K×4K,整体特性还是比较先进的,并不算落伍。

本期内容暂时到这里就结束了。下期本文将会带来CES上发布产品的更多精彩技术分析,其中包括三星即将推出的、源自ARM的big.LITTLE大小搭配技术、国产Cortex A7处理器等诸多内容。我们下期再见!

分享到:

用户评论

用户名:

密码: