当然,现在的游戏不仅在乎显卡的最强大的显卡,现在转向cpu,…

***:010-62675595
图铃下载
新浪公益
产品大全
┊Copyright 1996-2010 SINA Corporation, All Rights Reserved
新浪公司GPU集大成者!GeForce GTX480/470全球同步解密
北京 [ 原创 ] 作者:小熊在线-su ywell 日期:2010年03月27日
  这一刻让我们等的太久了!除了当年的
FX 5800 Ultra,
从来没有哪一代产品落后
如此之久, 在落后
HD 5870发布半年这段时间内,我们对GeForce GTX 480充满了期待,在漫长的等待日子里,我们不断的对其憧憬,每一个有关于GeForce GTX 480都会让我们兴奋不已,哪怕毫无根据的谣言!因为NVIDIA这个词已经对
创新的代名词,我们不在乎等待,因为每个人都相信,GeForce GTX 480不会让我们失望!
  怎么样才能将一款显卡定位在完美?这个问题并不需要玩家回答,因为GeForce GTX 480将会我们诠释完美这个概念,GeForce GTX 480是一个全新的设计,它将完全颠覆之前对于显卡的定义,无论是游戏、通用计算、物理加速、DirectX 11、3D显示、近乎双倍的SLI性能,都会为我们带来前所未有的性能体验。
  这里首先要告诉大家,GeForce GTX 480之所以会晚于AMD的产品半年之久才发布,是因为在GeForce GTX 480中有很多革命设计,另外NVIDIA跳过GeForce GTX 380的命名方式直接进入GeForce GTX 480时代,也在暗喻产品的革命性。尤其是针对DirectX 11中Te ellation功能的改进,如果NVIDIA也用AMD在
中加入Te ellation单元就变成了RV870的方法来设计GeForce GTX 480,相信以NVIDIA的实力,我们也许看到GeForce GTX 480的发布时间还会早于Raeon HD 5870。
  有关于GeForce GTX 480的信息之前网络上已经曝光的非常多,可以说出了实际游戏性能及具体的频率规格,GeForce GTX 480已经没有什么秘密可言,但是GeForce GTX 480却又很多你并不了解的内涵……
nVIDIA领导图形界的10年
  游戏的发展趋势只有一个,就是更加接近真实世界,无论是静态的还是动态的,
的每次革新都是以此为目标,下面我们来回顾一下NVIDIA引领显卡高速发展的10年。
  1999年,GeForce 256实现了硬件转换与阴影(T&am L),这可以说是GPU发展史上第一次重大革命,解放了CPU,GPU的概念也就是从GeForce 256开始提出的。T&am L引擎主要是用来进行复杂的坐标处理和光源的运算,让用户能够感受到物体真实的光影。过去在没有T&am L引擎的平台上,大部分坐标处理的工作及光影特效需要由CPU亲自来执行,因此占用了CPU太多的运算时间,从而造成整体画面不能非常流畅地表现出来。如果应用了T&am L引擎,就将大大减轻CPU处理3D时的负荷,并且使CPU能够有更多的资源来处理更精彩的3D特效,提供更好的视觉效果,从那时起,GPU的3D运算能力已经凌驾于CPU之上。
  2001年,GeForce 3开始支持DirectX 8,并且首次引入了可编程着色的概念,这种像素与顶点分离式可编程单元设计一直延续了5年的时间,诞生了很多经典的产品,随后,GeForce FX在整个GPU中提供了 全32位浮点精度,虽然GeForce FX 5800 Ultra算不上成功,但是NVIDIA的创新精神是非常值得我们肯定的。
  2006年,GeForce 8问世,这也是世界上第一款支持DirectX 10的产品,采用了强大、高效统一的标量着色器设计,再次引发一场计算革命,也就是从G80开始,NVIDIA开始在自己的产品研发中重视起通用计算能力,并且一直延续,而AMD方面至今在GPU设计中仍没有注意到此点。GeForce GTX 200系列可以说是GeForce 8系列的延续,不过拥有更多的CUDA核心。
  今天,NVIDIA代号为GF100最新的GPU GeForce GTX 480发布,是首款基于GF100架构的的GPU。GF100可实现所有DirectX 11硬件特性,其中包括Te ellation(曲面细分)以及DirectCompute等等。GF100提出了一种大幅改进的计算架构,这种架构专为支持下一代游戏特效而设计,例如
、顺序无关透明度以及流体模拟等等。游戏性能与图像质量均得到了大幅提升,在游戏人物与物体的渲染上,GF100可实现电影般的几何学逼真度。对GF100架构的图形增强来说,几何学逼真度极为重要。此外,
模拟的速度也更快,凭借GF100,开发者能够在游戏中最有效地利用GPU计算的诸多特性。
全球最快的GPU
  NVIDIA将GeForce GTX 480定位为全球最快的GPU,拥有比GeForce GTX 285高1.5~3.5倍的性能,出色的Te ellation(曲面细分)硬件性能,支持3屏3D立体幻境技术,设计目标包括一流的图像质量、电影般的几何学逼真度 、一款专为游戏量身打造的革命性计算架构。
  GF100专提供顶级游戏性能而设计,GF100基于GF100的第三代流式多处理器(SM)架构,其CUDA核心数量高达上一代架构的两倍。几何学流水线得到了大幅改进,几何学着色、
以及剔除的性能均实现了大幅提升。每个ROP分区的ROP单元的数量翻了一番,填充率也得到了极大的提高,从而能够轻松驱动多台
  之前NVIDIA产品在打开抗锯齿后性能下降确实非常严重,AMD也经常用这点来说事,但是在GF100中,通过增强型ROP压缩,8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提高。即使是对于不能压缩的场景部分,附加的ROP单元也能够更好地平衡整体GPU吞吐量。
更强的8AA性能
  画质改进方面,GF100可根据八个多重采样以及24个覆盖采样来实现全新的32倍速覆盖采样抗锯齿(CSAA)模式。同时还对CSAA进行了扩展,使其能够在所有样本上支持“透明至覆盖”(
-to-Coverage),从而让叶子与透明纹理的渲染变得更加流畅。
  无论是多边形边缘还是透明纹理(Alpha Texture),GF100都能够以最小的性能损失为其生成最高质量的抗锯齿效果。硬件加速的DirectX 11四偏置点(Four-offset)Gather4大大提升了阴影贴图性能。
电影般的几何学逼真度
  虽然可编程着色让PC游戏能够在每像素特效上与电影相媲美,但是在几何学逼真度上PC游戏还差得很远。当今最先进的PC游戏在每一帧中运用一两百万个多边形。相比之下,计算机生成的电影中每一帧通常会运用数以亿计的多边形。这种巨大的差异在一定程度上可以归咎于硬件,虽然像素着色器的数量已经从一个发展到数以百计,但是三角形配置引擎仍然只是一个单独的单元,相对于每个像素来说,这就极大地影响了当今GPU的几何学处理能力。例如,与GeForce FX相比,GeForce GTX 285的着色性能高达150倍以上,但是几何学处理速度却不足前者的三分之一。结果就是像素的着色有些拘泥,而几何学的细节呈现相对薄弱一些。
  在解决几何学逼真度这一问题上,NVIDIA从电影上获得了启发。电影中人物的精细画质归功于两种关键技术:Te ellation(曲面细分)以及Di lacement Ma ing(贴图置换)。Te ellation(曲面细分)能够将大型三角形细化为诸多较小三角形的集合体,而Di lacement Ma ing(贴图置换)则能够改变它们的相对位置。这两种技术相结合,让多变的复杂模型能够通过相对简单的描绘来形成。例如《加勒比海盗》中Davy Jones等一些我们最喜爱的电影人物都是利用这些技术制作出来的。
  GF100整个图形流水线旨在为Te ellation(曲面细分)与几何学吞吐量提供极高的性能。凭借一款利用多个“PolyMorph引擎”所实现的全新分布式几何学处理架构,GF100在图形处理流水线的前端取代了传统的几何学处理架构。每一个PolyMorph引擎均包含一个Te ellation(曲面细分)单元、一个属性设置单元以及其它几何学处理单元。每一个流式多处理器(SM)均拥有自己专用的PolyMorph引擎。新生成的基元被四个并行工作的Raster引擎(相比之下,上一代GPU中只有一个Raster引擎)转化为像素。片上一级以及二级高速
能够实现SM与Te ellation(曲面细分)单元之间或不同SM之间基元属性的高带宽传输。在GF100上,Te ellation(曲面细分)及其所有支持步骤均能够并行地运行,从而能够在几何学吞吐量上实现巨大突破。
  虽然与过去的GPU架构相比,GF100包含了诸多增强特性与性能提升,但是最重要的GF100架构进步当属几何学处理的并行执行能力。使设置速率能够达到每时钟周期一基元以上、同时保持正确的渲染顺序,这是GPU领域前所未有的巨大技术成就。
革命性计算架构
  提高通用计算,人们第一想到的肯定是视频转码之类的应用,然而今天,NVIDIA已经将通用计算能力加入到了游戏之中,革命性计算架构就此诞生!
  光栅化流水线已经有很长的历史了,但是因为游戏渴望实现电影般的画质,所以图形处理正在朝着先进算法的方向发展。先进的算法需要GPU来负责执行通用计算以及可编程着色。G80是包含计算特性的首款NVIDIA GPU。GF100吸取了在G80上所获得的经验,从而能够为游戏大幅提升计算特性。
  GF100利用GF100革命性的计算架构来处理游戏应用。在图形处理方面,诸多线程独立地工作,有一个预先裁定的流水线,展示了很好的
本地存取特性。另一方面,计算线程通常彼此间相互通信,以没有预先裁定的方式工作,通常读写存储器的不同部分。GF100上所改进的重要计算特性在游戏中将非常实用,其中包括图形处理与PhysX之间更快的上下文切换、计算内核的同时执行以及有益于光线追踪与AI算法等不规则算法的增强型高速缓冲架构。
  大幅提升的原子运算性能让诸多线程能够通过工作队列来安全地协作,从而能够加快这些新颖的渲染算法。例如,快速的原子运算能够在没有预先排序的情况下对透明物体进行渲染(顺序无关透明度),从而让开发人员能够用复杂的玻璃环境来创建多种级别。
  就无缝的图形互操作来说,GF100的GigaThread引擎将上下文切换时间缩短至大约20微秒,从而使其能够执行多种计算以及每一帧的物理效果内核。例如,一款游戏可能会使用DirectX 11来渲染场景、切换至CUDA来应付选择性的光线追踪、调用Direct Compute内核以进行后期处理以及利用PhysX来执行流体模拟。
曲面细分及贴图置换:概述
  Te ellation(曲面细分)以及Di lacement Ma ing(贴图置换)实际上并不是什么新型渲染技术,但是目前电影行业还大都一直在运用这两项技术,因为其可以实现非常完美的特效。随着DirectX 11与NVIDIA GF100的推出,开发人员将能够利用这些强大的技术来打造游戏应用程序。
  物体与人物等游戏内容一般需要用Mudbox、ZBrush、3D Studio Max、
或Softimage等建模软件包来创建。这些软件包能够提供基于Di lacement Ma ing(贴图置换)表面的工具来辅助艺术家创建细腻的人物与环境。现在,艺术家必须手动创建各种细腻程度的多边形模型,以满足游戏中各种渲染场景所需、达到保持可玩性帧速率的目的。这些模型就是带有相关纹理贴图的三角形网格,而这些纹理贴图则是正确着色所需要的。当游戏中运用到这些模型时,每一帧的模型信息都通过主
(Host Interface)发送给GPU。由于
Expre 总线的带宽限制,游戏开发商倾向于使用相对简单的几何模型以及目前GPU最保守的几何学吞吐量。
  即使在最好的游戏中,也会因为现有图形API以及GPU的限制而存在几何学伪像。在下列《FarCry
2》游戏截图中即可看到复杂几何图形的折衷表现结果。手***皮套有太多刻画面,皮带的分割感太强。瓦楞屋顶本应看起来有波纹感,但是实际上是带有条纹纹理的平面。最后,正如游戏中的大多数人物一样,这个人戴着一顶帽子,细心地避开了渲染头发所涉及的复杂度。
  利用基于GPU的Te ellation(曲面细分),游戏开发人员能够发送物体或人物的紧凑型几何表现形式,Te ellator单元能够为特定场景生成合适的几何学复杂度。现在我们来看看更加细腻的细节表现,研究一下Te ellation(曲面细分)与Di lacement Ma ing(贴图置换)结合使用的特点与优势。
  让我们来看一下面的实例,左边的图像使用了四边形网格来勾勒人物的大致轮廓。即使与一般的游戏内容相比,这种表现形式占用空间也是非常少的。中间这幅人物图像是对左侧图像进行了精细Te ellation(曲面细分)与描绘的结果。拥有了非常光滑的外观,没有因几何形状的限制而形成多个刻画面。
  但是人物虽然外表光滑,但是与粗糙的网格相比,细节部分并无改善。右侧的图像是对中间图像附上了一个Di lacement Ma ing(贴图置换)的效果。这个人物拥有可媲美电影制作中的丰富几何细节。
曲面细分及贴图置换:优势
  Di lacement Ma ing(贴图置换)与Te ellation(曲面细分)的结合使用具有许多优势。这种表现形式占用空间少、可扩展,能够实现高效存储与计算。紧凑型绘图形式意味着占用的显存较少、当将构成这些图像的顶点发送给GPU处理时所消耗的带宽较少。因为动画是由紧凑型绘图所组成的,因此就能够表现出计算密集度更高、更复杂、更逼真的动作。当游戏人物出现在特定帧中时,这种按需分配的三角形合成法让其几何复杂度能够与针对特定人物情况所生成的三角形数量相匹配。
  这种控制几何细节级别(LOD)的能力非常强大。因为它是按需分配的,数据全部处于片上,所以维持了从前的
。而且,因为一个模型可能会产生许多个细节级别,所以同一项游戏内容都能够应用在各种平台上,无论在性能最平庸的
还是在强大的四路SLI系统上均可使用。游戏人物还能够为特定场景而量身缩放,如果尺寸小那么几何图形就相对简单;如果离屏幕较近,那么就以最高的细节级别进行渲染。此外,可扩展的游戏内容意味着,开发人员能够在前后几代游戏中均使用相同的模型。这样,在性能更强的未来GPU上,细节表现将比当初游戏问世时效果更好。复杂度能够实现动态调整,以适应特定的帧速率。最终,利用Di lacement Ma ing(贴图置换)与Te ellation(曲面细分)相结合的方式所渲染出来的模型与艺术家所用工具中的原生模型很相似,从而让艺术家不必创建不同几何细节级别的模型,无需重复地进行这种一般性劳动。
  Di lacement Ma ing(贴图置换)是一种非常强大的建模与渲染技术。Di lacement Ma ing(贴图置换)是一种能够表现出高度信息的纹理。当附加到一个模型上时,Di lacement Ma ing(贴图置换)可用来改变该模型顶点的相对位置。Di lacement Ma ing(贴图置换)让复杂的几何图形能够存储在一个紧凑的贴图当中。因此,Di lacement Ma ing(贴图置换)可以被看作是一种几何信息的压缩形式。
  与浮雕贴图、法线贴图以及视差贴图这些仅改变像素外观的贴图不同,Di lacement Ma ing(贴图置换)能够改变顶点的位置。这样一来,就能够在阴影的边缘实现自遮挡、精确的影子、以及更加生动的运动效果。
  Di lacement Ma ing(贴图置换)对现有的凹凸贴图技术是一种补充。例如,Di lacement Ma ing(贴图置换)可以用来定义主要的表面特性,而法线贴图等纹理更细的技术则用于刮痕和斑点等等低级别的细节表现。
  除作为一种创建复杂几何信息的简单方式以外,Di lacement Ma ing(贴图置换)的几何效果还能够在制作动画时表现得很自然。看看右图中的简单实例吧,—钝角钉板在折弯时仍然保持着基本形状。采用Di lacement Ma ing(贴图置换)方式所制作出来的人物也与之类似。再来看看上一页中的Imp游戏人物。通过操纵粗糙的控制外壳(左图)才可以让它产生动画效果。而Di lacement Ma ing(贴图置换)的人物(右图)则能够自然地随着下垫面的运动而产生动画效果。
  最后,Di lacement Ma ing(贴图置换)最有趣的一点就是能够在游戏期间轻松修改它们。在当今的诸多游戏中,用***对金属门扫射的动作只会留下弹孔的痕迹,但门的形状不会改变。凭借Di lacement Ma ing(贴图置换),可以用相同的弹孔纹理来更改Di lacement Ma ing(贴图置换),从而让玩家不仅能够将游戏中的物体的外观打得变形而且还能够将其底层结构打得变形。
GF100架构解析:概述
  有关于GF100的架构我们在之前的文章中有过简单介绍,此次我们将深入探讨GF100的架构!GF100 基于大量可扩展的图形处理集群(GPC)、流式多处理器(SM)以及存储器控制器。完整的GF100拥有4个GPC、16个SM以及6个存储器控制器。NVIDIA希望能够推出在GPC、SM以及存储器控制器等方面具有不同配置的GF100产品,以满足不同价位的市场需求。
  GF100主要包括主接口(Host Interface)、GigaThread引擎、4个GPC、6个存储器控制器、6个ROP分区以及一个768 KB 2级高速缓存。每一个GPC包含了4个PolyMorph引擎,每个SM一个,ROP分区紧邻2级高速缓存。
  GPU能够通过主接口来读取CPU指令,GigaThread引擎能够从系统
中获取指定的数据并将其复制到显存中。GF100采用了6个64位
存储器控制器(总共384位),便于显存高带宽存取。GigaThread 引擎然后会为各个SM创建和分派线程块。单个SM反过来会将多个Warp(32个线程的群组)调度至多个CUDA核心以及其它执行单元。当图形流水线中出现工作膨胀现象时,例如在Te ellation(曲面细分)以及光栅化阶段之后,GigaThread引擎还能够将工作重新分配至SM。
  GF100拥有512个CUDA核心,每32个核心构成一个SM,共有16个SM。需要注意的是,面向高性能计算领域的
C2070和下一代图形工作站Quadro系列才会配备完整的512个流处理单元,GeForce GTX 480被屏蔽了32个(一组)!每个SM都是一个高度并行的多处理器,它们在任何时候都能够支持多达48个Warp。每个CUDA核心都是统一的处理器核心,能够执行顶点、像素、几何学以及计算内核。统一的2级高速缓存架构能够提供载入、存储以及纹理操作等服务。
  GF100拥有48个ROP单元,它们可用于像素混合(Pixel Blending)、抗锯齿以及原子存储器操作。ROP单元每8个一组,共有6组。每一组均由一个64位存储器控制器来进行控制。存储器控制器、2级高速缓存、以及ROP群组全都密切关联,扩展一个单元就会自动地扩展其它部件。
GF100架构解析:GPC架构
  GF100的图形架构由四个“图形处理集群”(GPC)的硬件模块构成。每个个GPC包含一个Raster引擎以及最多四个SM。
  GPC是GF100的主要高级硬件模块。它拥有两项重要的创新:一个用于三角形设置、光栅化以及Z坐标压缩(Z-cull)的可扩展Raster引擎,一个用于顶点属性提取与Te ellation(曲面细分)的可扩展PolyMorph引擎。Raster引擎驻留在GPC当中,而PolyMorph引擎则驻留在SM中。
  如其名称所示,GPC囊括了所有主要的图形处理单元。它代表了顶点、几何、光栅、纹理以及像素处理资源的均衡集合。除了ROP功能以外,GPC可以被看作是一个自给自足的GPU,而一颗GF100拥有四个GPC !
  在G80和
中,SM与纹理单元在一种叫做“纹理处理集群”(TPC)的硬件模块中聚集在一起。在GF100中,每一个SM都拥有四个专用的纹理单元,这样就不再需要TPC了。
GF100架构解析:PolyMorph引擎
  我们在开篇提到,GeForce GTX 480之所以晚于Radeon HD 5870如此之久发布,就是针对Te ellation(曲面细分)做了很多的优化工作,而Te ellation就包含在PolyMorph引擎之中!
  之前的GPU设计一直采用一个单片电路前端来获取、汇集、以及对三角形实现光栅化。无论有多少个并行执行核心,这种固定的流水线所实现的性能都是固定的。因为应用程序的工作负荷是不尽相同的,所以这种流水线通常会导致瓶颈或未充分利用的情况。实现光栅化并行处理同时还要保持API的顺序是非常困难的,这种难度阻碍了这一领域的重大创新。虽然单个前端的设计在过去的GPU中曾有过辉煌的历史,但是随着对几何复杂度的需求不断增长,它现在已经变成了一个主要障碍。
  Te ellation(曲面细分)的使用从根本上改变了GPU图形负荷的平衡。凭借Te ellation(曲面细分),特定帧中的三角形密度能够增加数十倍,给设置于光栅化单元等串行工作的资源带来了巨大压力。为了保持较高的Te ellation(曲面细分)性能,有必要重新平衡图形流水线。
  为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph引擎”的可扩展几何引擎。16个PolyMorph引擎均拥有自己专用的顶点获取单元以及Te ellator,从而极大地提升了几何性能。与之搭配,NVIDIA还设计了四个并行Raster引擎,它们在每个时钟周期内可设置最多四个三角形。同时,它们还能够在三角形获取、Te ellation(曲面细分)、以及光栅化等方面实现巨大性能突破。
  PolyMorph引擎拥有五个阶段:顶点获取、Te ellation(曲面细分)、观察口转换、属性设置以及流输出。每个阶段中所运算得出的结果均被发送至一个SM。该SM能够执行游戏的着色程序、将结果返回至PolyMorph引擎中的下一个阶段。在所有阶段都完毕之后,结果会被传递给Raster引擎。
  te ellator单元包括Hull
s、Domain Shaders两个新着色器,Hull Shaders将用于定义面上需要被镶嵌的片段,诸如顶点/像素之类的信息,经转换输出给te ellator配置数据,然后由te ellator进行镶嵌操作,最后将转化好的数据传送给Domain Shader。在这个过程中,Hull Shaders控制te ellator进行拆分,最后的数据组合(比如模型)由Domain Shader完成,最后Domain Shader将这些数据转换成顶点,交给
或者流回
Shader,更多的是直接进入光栅化阶段。由于Hull Shaders、Domain Shaders两个新的可编程着色器类型的加入,也使得R600及RV770并不支持DirectX 11的Te ellation技术。
  第一个阶段是从一个全局顶点缓冲区中获取顶点。所获取的顶点于是被发送至SM,以进行顶点着色以及外壳着色。在这两个阶段中,顶点从一个物体空间转变成了世界空间,而且还算出了Te ellation(曲面细分)所需的参数(例如Te ellation(曲面细分)系数)。Te ellation(曲面细分)系数(或LOD)被发送至Te ellator。
  在第二个阶段中,PolyMorph引擎读取Te ellation(曲面细分)系数。Te ellator将修补面(控制点网格所定义的光滑表面)分成小方块并输出许多顶点。修补(u、v)值定义了网格以及形成网格的连接方式。
  全新的顶点被发送至SM,域着色器与几何着色器均在这里执行。域着色器能够根据外壳着色器与Te ellator的输入来运算每个顶点的最终位置。在本阶段中,通常会附上一个Di lacement Ma ing(贴图置换)以提升修补面的细节表现。几何着色器能够执行任何后期处理、按需增加或删除顶点以及基元。结果最终将被发回至Te ellation(曲面细分)引擎。
  在第三个阶段,PolyMorph引擎会执行观察口转换以及视角校正。接下来就是属性设置,把后期观察口顶点属性转变成了平面方程,以进行高效的着色器评估。最后,可以选择将顶点“流出”至存储器,使其能够用于更多处理。在之前的架构上,固定功能的操作由单个流水线来执行。在GF100上,固定功能与可编程操作全部都实现了并行化,从而极大地提升了性能。
  GF100拥有15组Te ellation单元,而Radeon HD 5870只有一个,采用串行的方式进行运算,NVIDIA认为这种方式并不能很好的体现Te ellation的优势,因为当Te ellation运算很多的场景,一个Te ellation单元不能满足其运算需求,会导致性能严重下降,我们在后面的DirectX 11程序测试中会涉及到这个问题!而GF100拥有15组Te ellation单元则能避免这种情况的出现,这部分也正是GF100与AMD产品在DirectX 11部分的根本不同之处!
Te ellation简单的场景 GTX480与HD5870成绩相差无几
Te ellation复杂的场景 GTX480比HD5870成绩高两倍
GF100架构解析:光栅引擎
  在PolyMorph引擎处理完基元之后,它们就被发送至光栅(Raster)引擎。为了实现较高的三角形吞吐量,GF100采用四个Raster引擎并行工作的方式,而之前的显卡中只有一个。
  Raster引擎由三个流水线阶段组成。在边缘设置阶段中,可提取顶点位置、计算三角形边缘方程。没有朝向屏幕方向的三角形都通过背面剔除而删掉了。每一个边缘设置单元在一个时钟周期中最多都能够处理一个点、线或三角形。
  光栅器(Rasterizer)为每一个基元而运行边缘方程并计算像素的覆盖。如果开启了抗锯齿功能,那么就会为每一个多采样以及覆盖采样执行覆盖操作。每一个光栅器在每个时钟周期内均可输出8个像素,整个芯片每个时钟周期内总共可输出32个光栅化的像素。
  光栅器所生成的像素将被发送至Z坐标压缩(Z-cull)单元。Z坐标压缩单元获取像素图块(Pixel Tile)并将图块中像素的深度与显存中的现有像素进行比较。完全处于显存像素后面的像素图块将从流水线中剔除,从而就不再需要进一步的像素着色工作了。
  GPC架构在集合流水线方面实现了巨大突破。Te ellation(曲面细分)需要全新级别的三角形与光栅化性能。PolyMorph引擎为三角形、Te ellation(曲面细分)以及流出(
)等方面实现了大幅性能提升。四个并行Raster引擎在三角形设置与光栅化方面能够提供持久的高吞吐量。通过为每一个SM配备一个专用的Te ellator、为每一个GPC配备一个Raster引擎,GF100所能够实现的几何性能可达GT200的8倍。
GF100架构解析:SM单元
  SM单元从G80时***始提出,到GF100已经进化到第三代,每个SM都有32个CUDA处理器,相比之下G80/G92/GT200都只有8个,达到了之前SM中处理器数量的四倍。GF100的CUDA核心专为在着色器的任何负荷下均实现最高性能以及最高效率而设计。通过采用标量架构,无论输入向量尺寸如何,都能够实现全部性能。Z缓冲区(1D)或纹理存取(2D)方面的操作均可充分利用GPU。
  每一个CUDA处理器都拥有一个完全流水线化的整数算术逻辑单元(ALU)以及浮点单元(FPU)。GF100采用了全新的IEEE754-2008浮点标准,能够为单精度以及双精度算术提供融合的乘法加法(FMA)指令。FMA在一个最终的四舍五入步骤中即可完成乘法与加法运算,改进了乘法加法(MAD)指令,在加法中不会损失精度。FMA在处理紧密重叠的三角形时能够最大限度地减少渲染错误。
  在GF100中,全新设计的整数ALU支持所有指令全32位精度,符合标准编程语言的要求。整数ALU还经过了优化,可有效支持64位以及更高精度的运算。它支持各种指令,其中包括Boolean、移位、移动、比较、转换、位字段提取、位反向插入(Bit-reverse I ert)以及种群统计。
  每一个SM都拥有16个载入/存储单元,从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和存储到高速缓存或DRAM中。
  特殊功能单元(SFU)可执行抽象的指令,例如正弦(sin)、余弦(cosine)、倒数和平方根。图形插值指令也在SFU上执行。每个SFU在一个时钟周期内针对每个线程均可执行一条指令,一个Warp(32个线程)的执行时间可超过八个时钟周期。SFU流水线从分派单元中分离出来,让分派单元能够在SFU处于占用状态时分发给其他执行单元。复杂的程序着色器在特殊功能专用硬件上的运行优势尤为明显。
  双精度算法是
应用程序如线性代数、数值模拟和量子化学的关键。GF100架构为此进行了专门的设计,提供了前所未有的双精度性能:每个SM每个周期能执行高达16 个双精度FMA指令,相比 GT200来说有了显著地提升。
GF100架构解析:双Warp调度器
  SM可对32个为一组的并行线程(又叫做Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元,这样,就能够同时发出和执行两个Warp。GF100的双Warp调度器可选出两个Warp,从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系。
  通过利用这种优秀的双指令执行(Dual-i ue)模式,GF100能够实现接近峰值的硬件性能。
  大多数指令都能够实现双路执行,两条整数指令、两条浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行。双精度指令不支持与其它指令同时分派。
GF100架构解析:纹理单元
  每个SM都拥有四个纹理单元。每个纹理单元在一个时钟周期内能够计算一个纹理地址并获取四个纹理采样。返回的结果可以是经过过滤的也可以是未过滤的。支持的模式包括双线性、三线性以及各向异性过滤模式。
  GF100的目标是通过提升效率来提升纹理性能。通过将纹理单元搬到SM当中,我们实现了这一目标,提升了纹理高速缓存的效率、实现了更高的时钟频率。
  在以往的GT200架构中,最多三个SM共享一个纹理引擎,该引擎含有八个纹理过滤单元。在GF100 架构中,每个SM都拥有自己专用的纹理单元以及一个专用纹理高速缓存。而且,纹理单元的内部架构还得到了大幅增强。在阴影贴图、屏幕空间环境光遮挡等实际使用情况中,净效应就是所实现的纹理性能得到了大幅提升。
  GF100专用的1级纹理高速缓存经过重新设计,可实现更高的效率。而且,通过配备统一的2级高速缓存,纹理可用的最大高速缓存容量达到了GT200的三倍,为纹理密集的着色器提升了命中率。
  之前架构上的纹理单元能够以GPU的核心频率工作。在GF100上,纹理单元的运
率更高,从而在单元数量相同时提升了纹理性能。GF100的纹理单元还新增了对DirectX 11中BC6H与BC7纹理压缩格式的支持,从而减少了HDR纹理与渲染器目标的存储器占用。
  纹理单元通过DirectX 11的四偏置点(Four-offset)Gather4特性,还支持抖动采样。这样一来,单一纹理指令就能够从一个128×128的像素网格中获取四个纹理像素。GF100在硬件上采用了DirectX 11四偏置点Gather4,大大加快了阴影贴图、环境光遮挡以及后期处理算法的速度。凭借抖动采样,游戏就能够高效地执行更加平滑的软阴影或定制纹理过滤器。
  3DMark 2006(左图)中的软阴影是通过纹理贴图(右图)中的抖动采样来实现的。GF100在硬件上采用了抖动采样技术,最高性能可达GT200的2倍!
GF100架构解析:共享存储器与L1
  对于图形程序,GF100能够利用16 KB 1级高速缓存配置。1级高速缓存的作用是充当用于寄存器溢出的缓冲区,让寄存器的使用能够实现不俗的性能提升。针对计算程序,1级高速缓存以及共享存储器让同一个线程块中的线程能够互相协作,从而促进了片上数据广泛的重复利用并减少了片外的通信量。共享存储器是使许多高性能CUDA应用程序成为可能的重要促成因素。
  作为一种高速、可编程的片上存储器,共享存储器是第一代CUDA架构中的一项重要架构创新。通过促进线程间的通信,共享存储器让各种各样的应用程序均能够在GPU上高效地运行。从此共享存储器便被所有主要的GPU计算标准与同类架构所采用。
  由于意识到共享存储器至关重要的作用以及保持数据本地性的重要性,NVIDIA再一次扩展了GPU存储器模型。GF100中,每个SM均包含了一个专用的1级高速缓存。
  1级高速缓存能够起到与共享存储器互补的作用,共享存储器能够为明确界定存储器存取的算法提升存储器存取速度,而1级高速缓存则能够为这些不规则的算法提升存储器存取速度。
  在GF100 GPU上,每个SM均拥有64 KB片上存储器,这部分存储器可配置为16 KB的1级高速缓存外加48 KB共享存储器,或配置为16 KB共享存储器外加48 KB的1级高速缓存。 例如当游戏需要大量计算时,那么就可以分配到L1更多的空间,而如果需要和外部缓存交换大量信息时,就可以分配到共享存储器更多的空间,非常灵活!
GF100架构解析:L2缓存
  GF100拥有一个768 KB的统一2级高速缓存,该缓存可以为所有载入、存储以及纹理请求提供服务。2级高速缓存可在整个GPU中提供高效、高速的数据共享。物理效果解算器、光线追踪以及稀疏数据结构等事先不知道数据地址的算法在硬件高速缓存上的运行优势尤为明显。后期处理过滤器需要多个SM才能读取相同的数据,该过滤器与存储器之间的距离更短,从而提升了带宽效率。
  统一的高速缓存比单独的高速缓存效率更高。在不统一的高速缓存设计中,即使一个高速缓存被程序过多地预订,它也无法使用其它高速缓存中未贴图的部分。高速缓存的利用率将时钟低于理论峰值。GF100的统一2级高速缓存可在不同请求之间动态地平衡负载,从而充分地利用高速缓存。2级高速缓存取代了之前GPU中的2级纹理高速缓存、ROP高速缓存以及片上FIFO。
GF100的高速缓存架构让各流水线阶段之间可以高效地通信,减少了片外存储器的通信量
  统一的高速缓存还能够确保存储器按照程序的顺序执行存取指令。当读、写路径分离(例如一个只读纹理路径以及一个只写ROP路径)时,可能会出现先写后读的危险。一个统一的读/写路径能够确保程序的正确运行,同时也是让NVIDIA GPU能够支持通用C/C++程序的重要因素。
  与只读的GT200 2级高速缓存相比,GF100的2级高速缓存既能读又能写,而且是完全一致的。NVIDIA采用了一种优先算法来清除2级高速缓存中的数据,这种算法包含了各种检查,可帮助确保所需的数据能够驻留在高速缓存当中。
  L1/L2本是CPU中的概念,显卡中之前虽然也出现过,但是定义并不十分明朗,GF100中的L1/L2的加入,使其更像是一个
,这方面AMD要向NVIDIA学习!
GF100架构解析:ROP单元
  GF100的ROP子系统经过重新设计,可提升吞吐量与效率。一个GF100 ROP分区包含8个ROP单元,数量比上一代架构翻了一倍。每个ROP单元在一个时钟周期内均能够输出一个32位整数像素,一个FP16像素需要两个以上的时钟周期,一个FP32像素需要四个以上的时钟周期。原子指令性能也得到了大幅提升,相同地址的原子操作执行速度最高可达GT200的20倍,邻近存储区的操作执行速度最高可达7.5倍。
  在GF100上,由于压缩效率的提升以及更多ROP单元能够更有效地渲染这些无法被压缩的较小基元,因此8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提升。当压缩不起作用时,场景中几何逼真度的提升更加需要ROP单元良好地运行。
  在上一代架构中,8倍速多重采样抗锯齿(MSAA)模式所导致的性能下降在不同游戏上的表现差异很大,Tom Clancy的《鹰击长空》(HAWX)就是这种游戏的一个例子。这款游戏在8倍速多重采样抗锯齿模式下表现出了非常低下的效率。在GF100上,8倍速多重采样抗锯齿的性能有了很大的提升。在4倍速抗锯齿模式下,GF100比GT200快1.6倍。在8倍速抗锯齿模式下,GF100比GT200快2.3倍,仅比自己在4倍速模式下慢了9%。
  GF100还新增了一种新型32倍速覆盖采样抗锯齿(CSAA)模式,该模式能够提供最高图像质量并利用“透明至覆盖”(Alpha-to-Coverage)来为当今游戏提升感官上的几何逼真度。
  由于受到API与GPU计算能力的限制,当今的游戏能够渲染的几何图形数量还很有限。叶子的渲染是一个尤其突出的难题。针对叶子的一种常用技术就是创建一个包含许多树叶的透明纹理公告板,利用“透明至覆盖”来除去树叶之间的缝隙。覆盖采样的数量决定了边缘的画质。如果只有四个覆盖或八个采样,那么将会出现非常糟糕的锯齿以及镶边现象,尤其是在纹理靠近屏幕的时候。采用32倍速覆盖采样抗锯齿(CSAA),GPU共有32个覆盖采样,从而最大限度减少了镶边效果。
  左侧图像显示了在过去GPU上利用16xQ抗锯齿(8倍速多重采样、8倍速覆盖采样)所实现的TMAA效果。右图显示了在GF100上利用32倍速抗锯齿(8倍速多重采样、24倍速覆盖采样)所实现的TMAA效果。因为覆盖采样被用作GF100中TMAA计值的一部分,所以生成了平滑得多的渐变效果。
  透明多重采样(TMAA)也能够从CSAA中获益匪浅。由于“透明至覆盖”不在DirectX 9 API当中,所以DirectX 9游戏无法直接使用“透明至覆盖”。而TMAA恰恰对这样的游戏有所帮助。取而代之的是,它们采用了一种叫做“透明测试”的技术,该技术能够为透明纹理产生硬边缘。TMAA能够转换DirectX 9应用程序中旧的着色器代码,使其能够使用“透明至覆盖”。而“透明至覆盖”与CSAA相结合,能够生成大幅提升的图像质量。
  因为覆盖采样对存储器的要求很低,所以32倍速覆盖采样抗锯齿(CSAA)的性能在很大程度上可与8倍速多重采样抗锯齿(MSAA)比肩。各种游戏中的平均成绩显示,32倍速CSAA的性能仅比8倍速MSAA低7%。
面向图形的计算架构
  GF100除针对曲面细分单元进行大幅度改进外,另一个目标就是做最好的图形计算处理器,针对图形计算架构的解释我们在GF100架构介绍部分已经有多详细介绍,比如L1/L2高速缓存、特殊功能单元等,这些设计都能让GF100的图形计算能力再上一层楼,我们可以发现NVIDIA的CUDA技术不但可以用作视频转码,更是可以用在游戏之中!
  近年来,可编程着色器让每像素逼真度的大幅提升成为了可能。今后,可编程性将继续作为发展的第一要务,以便让开发人员能够创造出新一代视觉特效。
计算机图形是一系具有无数种途径的多样化问题。光栅化、光线追踪以及Reyes都是为人们所广泛认可的通用渲染算法。在每一种渲染风格中,都存在着针对各种子问题的不同解决方案。迄今为止,GPU已经专为光栅化而进行了设计。随着开发人员不断探索全新的方式来改进其图形引擎,GPU将需要在各种不断发展的图形算法上实现出色的性能。因为这些算法是通过通用计算API来执行的,所以一个强大的计算架构对GPU的图形功能来说是至关重要的。实质上,你可以将计算视作新型可编程着色器。
  GF100的计算架构旨在满足各种各样的算法需求以及促进GPU在解决并行难题方面的应用普及。由于程序存储器的本地性仅在运行时(Runtime)上有效,因此例如光线追踪、物理效果以及人工智能等诸多算法无法利用共享存储器。GF100的高速缓存架构在设计过程中考虑到了这些问题。凭借每个SM所配备的最多48KB的1级高速缓存以及一个全局2级高速缓存,在运行时存取存储器同一位置的线程将自动加速运行,无论这些线程选用了那种算法都会实现加速。
  G80是NVIDIA的首款计算架构。其设计反映了人们对扩展GPU功能以解决HPC类难题的愿望。例如,G80的一大创新就是共享存储器,共享存储器有助于加快矩阵乘法的运算速度,而矩阵乘法则是诸多数学与物理效果算法的基础。
  GF100计算架构针对游戏的另一个改进方面是调度。G80与GT200均能够利用相对较慢的上下文切换来在同一时间执行大型内核。由于HPC应用程序采用了大型数据集,对延迟的感觉不敏感,因此这一模型运行得相对较好。在游戏应用程序中,并不会执行单个占
地位的内核,而是执行各种较小的内核(例如布料、流体、刚性体)。在GF100上,这些内核能够并行地执行,从而最大限度地利用了诸多CUDA核心。
  在利用计算的游戏当中,每一帧都会出现上下文切换,这一点使其性能很难达到灵敏帧速率的要求。GF100将上下文切换的时间缩短至约20微妙,使其能够在每帧多个内核之间执行精细的上下文切换。例如,一款游戏可以使用DirectX 11来渲染场景、切换至CUDA以实现选择性光线追踪、调用一个DirectCompute内核来执行后期处理以及利用PhysX执行流体模拟。
  随着开发人员越来越多地将GPU应用于通用用途,在编程语言以及调试方面提供更好的支持就变得愈加重要。GF100是首款完全支持C++的GPU,C++是游戏开发人员所选用的一种编程语言。为了使向GPU编程的过渡过程变得轻而易举,NVIDIA还开发了Nexus,Nexus是一种面向GPU的
Visual Studio编程环境。加上这些能够提供更好调试支持的全新硬件特性,开发人员将能够在GPU上轻松开展开发工作,正如他们在CPU上开发应用程序一样。
  因为计算算法在性质上是通用的,所以它们可用于解决各种各样视觉计算以及模拟算法问题。诸多游戏开发商在其即将问世的游戏中所研究的算法有很多,例如:
新颖的渲染算法
可获得精确反射与折射效果的光线追踪
用于精细Di lacement Ma ing(贴图置换)与高品质抗锯齿的Reyes
用于立体数据模拟的立体像素渲染
图像处理算法
具有精确焦外聚光点(焦外成像)的定制景深内核
用于高级HDR渲染的直方图
用于高级模糊以及锐化效果的定制过滤器
物理效果模拟
用于高级流体模拟的平滑粒子流体力学
用于精细烟雾与流体特效的湍流
物理学物体广泛应用的GPU刚性体
用于大量游戏人物的人工智能(AI)探索算法
图形计算架构:第二代并行线程执行ISA
  GF100是第一个支持新并行线程执行(PTX)2.0指令集的体系结构。PTX是级别较低的虚拟机和ISA,目的是为了支持并行线程处理器的运作。在程序***的时候,PTX指令会被GPU驱动转译成机器代码。
  PTX的主要目标包括:
提供一个能跨越数代 GPU 的稳定 ISA
让经过编译的应用程序充分利用GPU的性能
提供一个支持 C、C++、Fortran 以及其他编译器对象并且与机器无关的 ISA
为应用程序和中间件开发者提供一个代码分发 ISA
为优化映射 PTX 代码至对象机器的代码产生器和转移器提供一个一般化的 ISA
让库以及性能核心程序(performance kernel)人手代码编写更容易
提供一个可以跨越 GPU 内核规模(从几个到多个)的可伸缩编程模型
  PTX2.0具备许多新特性,大大提升了GPU的可编程性、精度及性能。这些特性包括:完全的IEEE 32位浮点精度;所有变量和指针都有统一的寻址空间;64位寻址;以及针对OpenCL和DirectCompute的新指令。尤为重要的是,PTX2.0完全支持C++编程语言。
统一寻址空间实现完全的C++支持
  GF100和PTX 2.0 ISA采用统一寻址空间,将存取操作的三个不同的寻址空间(线程的私有局部空间、线程块的共用空间、全局空间)进行了统一。在PTX 1.0中,存取指令都具体对应这三个寻址空间中的一个,程序就可以在一个编译时确知的指定寻址空间中存取数值。这样很难为C和C++指针提供完全的支持,因为一个指针的目标寻址空间在编译时可能根本无从知晓而只有在运行时才能动态确定。
  PTX 2.0把三个寻址空间都统一为一个单独、连续的寻址空间,因此只需一套存取指令,而不再需要三套针对不同寻址空间(局部的、共用的及全局存储器)的存取指令。统一寻址空间为40位,可以支持1 Terabyte的可设定地址的内存,而存取ISA支持 64位以适应未来的增长。
  采用统一的寻址空间让GF100可以真正支持C++程序。在C++中,所有的变量和函数都存在于对象中,而对象又通过指针进行传递。有了PTX 2.0,就可以利用统一的指针传递任意存储空间里的对
象。GF100的硬件地址转译单元自动将指针参考映射到正确的存储空间。
  GF100和PTX 2.0 ISA还支持C++虚拟函数、函数指针、针对动态对象分配、解除分配“new”和“delete”操作以及针对异常处理的“try”和“catch” 操作。
  OpenCL及DirectCompute同CUDA 的编程模型有非常密切的对应关系,CUDA 里的线程、线程块、线程块格、障栅同步、共用存储器、全局存储器 以及原子操作都能在 OpenCL 和 DirectCompute 中看到,可以说 OpenCL 和 DirectCompute 的整个框架就是照搬 CUDA 的,因此基于 CUDA 的 GF100 天生就已经为 OpenCL 和 DirectCompute 提供了优化。此外,GF100 还为 OpenCL 和 DirectCompute 的表面(surface)格式转换指令提供了硬件支持,允许图形与计算程序能简单地对相同的数据进行操作。PTX 2.0 ISA 还为 DirectCompute 提供了population count、a end 以及 bit-reverse 指令的支持。
图形计算架构:IEEE 32位浮点精度
  单精度浮点指令现在在硬件上默认支持非规格化数以及IEEE 754-2008所有四种舍入模式(最接近、零、正无穷大、负无穷大)。
  非规格化数是分布在零与给定的浮点数系统的最小规格化数之间的非常小的数。前一代的GPU会将非规格化操作数和结果冲刷为零,从而导致精度上的损失。CPU通常在异常处理软件中进行非规格化计算,这需要消耗数千个周期。GF100 的浮点单元能以硬件方式处理 非规格化数,使得数值逐渐下溢至零而不导致性能上的损失。
  在电脑图形、线性代数和科学应用中常见的运算操作序列是两个数相乘然后把获得的积与第三个数相加,例如D = A × B + C。前一代GPU使用MAD指令实现加速,允许两个运算在单个周期内完成。在MAD指令中,乘运算积作为中间结果是会被切掉部分,并在接下来的加法运算中使用“舍入到最近偶数”的方式作舍入操作。GF100对32位单精度和64位双精度浮点数(GT200仅对双精度运算采用FMA指令)运算采用新的FMA指令,可以保证运算执行的中间结果得以全精度保留。提升精度可以让多种算法获益,例如精密的交叉几何体渲染、迭代数学方面的高精度计算以及快速准确舍入的除法与平方根操作。
  在GF100 ISA中,以前用于不同线程管理的本机硬件预测支持现在被应用于指令一级。预测能够使较短的条件代码段高效执行,无需调用分支指令。
图形计算架构:支持ECC技术
  GF100是第一个在内存中提供了基于纠错码(
)的数据保护功能的GPU。CPU(图形处理器)计算用户使用ECC来在高性能计算环境中增强数据完整性。ECC是诸如医疗成像以及大型集群计算等领域中一个迫切需要的特性。
  自然发生的辐射可能导致内存中的数据被更改,导致软错误。ECC技术能够在单位软错误影响系统之前就予以发现并进行纠正。由于此类辐射所致错误的可能性随已***系统的数量直线增长,ECC是大型集群部署中的一个必备要求。
  GF100支持单错纠正双错检测(SECDED)ECC代码,能够在数据被访问期间纠正硬件中的任意单位错误。此外,SECDED ECC还确保了所有双位错误和众多多位错误能够被发现和报告,以便能够重新运行程序,而不是继续执行不良数据。
  GF100的寄存器文件、共享内存、一级高速缓存、二级高速缓存和DRAM内存均提供有ECC保护功能,从而不仅是适用于HPC应用的最强大GPU,同时也是最可靠的GPU。此外,GF100还支持行业标准,能够当在芯片间传输数据时对其进行检查。所有NVIDIA?(英伟达?)GPU均支持用于CRC检查的PCI Expre 标准,能够在数据链路层进行重试。GF100还支持用于CRC检查的同类GDDR5标准,能够当数据在内存总线上传输时进行重试(也称作“EDC”)。
快速原子内存操作
  原子内存操作对于并行编程非常中药,它们能够允许多个线程在共享数据结构上正确执行读-修改-写操作。诸如加、减、最大值和比较-交换等原子操作均为原子级别,意味着在执行读、修改和写操作时不会被其它线程所中断。原子内存操作被广泛用于并行排序、减法操作和并行构建数据结构,并按顺序执行线程。
  得益于硬件中多个原子单元的组合,以及二级高速缓存的添加,GF100的原子操作性能比GT200一代高出20倍之多。
图形计算架构:GigaThread线程调度器
  GF100架构的一项最重要的技术为双级分布式线程调度器。在芯片一级,全局工作分配引擎为不同SM提供线程块。而在SM一级,每一个Warp调度器为其执行单元分配32个线程。第一代GigaThread引擎被应用于G80之中,可实时管理高达12,288个线程。GF100架构在这一基础上得到了大幅改进,不仅显著提升了线程吞吐率,同时动态加快了上下文交换、并发内核执行、以及改进的线程块调度等操作。
应用程序情景切换——10倍加速
  同CPU相同,GPU使用上下文交换来支持多任务处理,每一个程序收到处理器资源的一个时间片段。GF100后续产品线专门进行了优化,可将应用上下文交换的时间缩短到25秒,这也是相比上一代GPU的一个重大改进。除了改进的性能外,它还支持开发人员创建出能够充分利用频繁内核间通信优势的应用,如在显卡和PhysX应用之间的出色互操作性等。
并发核心程序执行
  GF100支持并发内核执行,其中同一应用上下文的不同内核能够同时在GPU上执行。并发内核执行允许程序执行大量小型内核,以充分利用整个GPU。例如,一个PhysX程序可能调用一个流体解算器和一个刚体解算器,如果这两个解算器顺序执行,将仅能使用可用线程处理器的一半。在GF100架构中,同一CUDA上下文的不同内核能够同时执行,从而支持最大限度地利用GPU资源。同时,借助改进的上下文交换性能,来自不同应用上下文的内核仍能够高效顺序执行。
图形计算架构:Nexus
  NVIDIA Nexus是第一个设计用于支持大规模并行CUDA C、OpenCL和DirectCompute应用的开发环境。它通过将支持并行处理的硬件源代码的调试与性能分析工作直接交由
Visual Studio进行,有效消除了CPU和GPU之间的生产率差距。Microsoft Visual Studio是Microsoft Windows操作系统下使用最广泛的集成应用开发环境。
  Nexus支持Visual Studio开发人员使用与在编写和调试CPU代码时用到的完全相同的工具与接口,来编写和调试GPU源代码,包括来源和数据断点、以及内存检测等。此外,Nexus还扩展了Visual Studio的功能,提供了工具来管理大规模并行计算,如支持对数千个并行运行的线程中的某一个进行检测和调试,以及对所有并行线程计算得出的结果进行高效的可视化呈现等。
  Nexus是开发能够同时利用CPU和GPU的协处理应用最佳环境。它能够在两个处理器间捕获性能事件和信息,并在单个相互关联的时间线内将信息显示给开发人员。在此基础之上,开发人员能够了解到其应用在整个系统中的执行和表现情况,而不是被局限于某个子系统或处理器。
图形计算架构:光线追踪
  光线追踪是现在非常火的技术,无论是光线追踪本身还是它与光栅化的结合都被许多人视作是图形处理的未来发展趋势。随着GF100的问世,交互式光线追踪首次在标准PC上成为了可能。
  过去在GPU难以高效运行的难题当中,光线追踪一直是很有代表性的一个。光线追踪反复循环地工作,而GPU也大多反复地工作。光线方向具有不可预测性,需要大量随机存储器的存取。为高效起见,GPU一般以线性块的方式存取存储器。
  GF100的计算架构在设计期间就已将光线追踪考虑在内。GF100是首款在硬件上支持循环的GPU,它能够执行高效的光线追踪以及大量其它图形算法。通过提升精细存储器存取性能,GF100的1级以及2级高速缓存大幅提升了光线追踪效率。1级高速缓存 为邻近的光线增强了存储器的本地性,而2级高速缓存则增大了至显存的带宽。
  GF100不仅在标准光线追踪中表现出色,而且在路径追踪等高级全局照明算法中也有不凡的表现。路径追踪采用大量光线来收集场景中的环境光照信息。路径追踪的早期评价显示,GF100的性能最高可达GT200的四倍。
  为了维持性能,游戏可以有选择地运用光线追踪。例如,光栅化可以用来执行场景的第一个通道。被确定为反射光的像素可以通过光线追踪来接受进一步的处理。这种混合型渲染模式能够实现更高性能以及更佳的图像质量。
图形计算架构:平滑粒子流体力学(SPH)
  逼真的流体模拟长期以来一直被运用于电影中,以创造出新颖奇特人物以及戏剧性的效果。《终结者2:审判日》中的T-1000便是由计算机生成的“液态金属”所打造。大量水的模拟对完成《2012》中的气候镜头来说至关重要。虽然游戏设计师渴望能够制作出类似的效果,但是流体模拟的计算复杂度阻碍了它们在实时应用程序中的应用。
  2003年,Müller等人在交互式流体模拟中采用了平滑粒子流体力学(SPH)算法,这是一种天体物理学算法。他们最初的作品展示了5,000个SPH 粒子,足以模拟每秒5帧的水杯倾泻效果。从此以后,Muller的SPH算法便被集成到了PhysX API当中。首款利用PhysX SPH的游戏《雪域危机》能够在极短的时间内模拟30,000个水粒子,这不能不说是一个突破。
  《雪域危机》中的水粒子的数量不足,无法表现出足以乱真的流体效果,而图形互操作极高的成本也限制了实际性能。
  GF100是首款能够实现高保真流体模拟所需性能的GPU。GF100搭配一款改进型SPH解算器就能够让游戏设计师在整个游戏环境加入高品质SPH流体效果。GF100能够模拟每帧128,000个以上的SPH粒子,足以支持大量的水以及各种基于流体的特效。例如,SPH可用于为雨水建模,制作出自然形成的水花四溅、水漩涡以及溢流效果。
3D立体幻镜Surround
  AMD在Radeon HD 5000系列上提出了3屏宽域技术,而
Surround可以看作是对其技术的反击,同样可以实现3屏显示,而且可以支持3D立体幻镜,这是AMD宽域技术多不具备的优势!当然3D立体幻镜Surround也有一定的局限,那就是最少需要两片GF100显卡,之前的GT200系列也可以支持改技术!
  NVIDIA 3D立体幻镜集高科技无线眼镜与先进的软件于一身,可自动将游戏(400多款)转化为完全立体的3D形式。即将问世的NVIDIA 3D立体幻镜
Surround技术由NVIDIA SLI配置的GF100 GPU提供支持。该项技术通过在三台显示器上以全立体3D形式呈现完全身临其境、可媲美
3D的游戏效果,从而将3D游戏推向了全新高度。
  NVIDIA3D立体幻镜Surround的渲染能力最高可达每秒7.46亿个像素,是上一代顶级游戏配置的3倍。开启Te ellation(曲面细分)、计算着色器以及PhysX之后,游戏对GPU的要求是非常高的。GF100专为在NVIDIA 3D立体幻镜
Surround上实现最高性能而打造。GF100全新的ROP子系统在每个分区中都拥有双倍数量ROP单元,从而能够同时向多台显示器输出数据。其并行Te ellation(曲面细分)与光栅引擎能够在Te ellation(曲面细分)任务繁重的场景中保持高性能。而且其搭载了高速上下文切换技术的强大计算架构令计算运算变得轻而易举。
单台显示支持2560x1600
三台支持1920x1200
  三台最高
为1920x1080的同型号3D立体幻镜 液晶显示器与投影仪即可呈现出3D立体幻镜
Surround视觉效果。对于这些还没有准备好投身立体游戏的玩家,非立体3D显示器也能够实现NVIDIA Surround效果,玩家可以使用多台分辨率相同、最高分辨率为2560x1600的显示器来体验NVIDIA Surround
  之所以一片GF100不支持3屏立体游戏,NVIDIA认为3D游戏渲染会耗费太多的GPU资源,一片显卡很难胜任,其实这种说法也不无道理,因为现在旗舰级显卡也不可能在1920x1080x3的分辨率下进行游戏,更何况还要加入3D立体运算!
  NVIDIA 3D立体幻镜
Surround包含了控制部分,控制部分让用户能够调整显示器,以补偿显示器的边框间隙,从而呈现出更加逼真的全屏游戏视觉效果。凭借边框校正功能,游戏视图的一部分可以隐藏到显示器边框后面,这样一来,边框似乎就成为游戏的一部分了。这样能够在多个显示器上呈现出更加连贯的图像,为玩家提供更加逼真的体验。它就好像乘客观看座舱窗外的风景一样,窗框挡住了玩家的一部分视线。Radeon HD 5000也是在最新的10.3驱动中才加入了该技术!
PhysX实例:剑侠情缘3
  有关于Physx物理加速游戏的介绍之前的文章中已经有很多,比如《镜之边缘》、《MKZ》、《蝙蝠侠:阿卡姆疯人院》、《黑暗之日》、《一舞成名》等等,今天将为大家介绍另外一款国产网游大作《剑侠情缘3》。
  《剑侠情缘3》是由金山珠海西山居工作室开发一款网络游戏(我最爱的《月影传说》也是该工作室的作品),该游戏采用金山自主研发的游戏引擎,采用DirectX 9 API,支持NVIDIA Physx物理特效!这是中国第一款采用Physx物理加速的MMORPG游戏,同时更是第一款成功应用NVIDIA CUDA技术在GPU上计算骨骼动画与蒙皮的多人在线游戏。
使用全动态光影计算来实现完整的昼夜更替
细致的全景阴影和复杂的大气光效
层叠阴影、体积光、体积雾
  超过18,000个粒子的Ma ive I tancing全场景无缝雨粒子。每一个雨粒子都能在不同视角,不同的光照,不同的下落时间下产生独一无二的效果。
  通过软体(softbody)的使用, 所有荷叶都与人的踩踏和雨滴自然交互。每片荷叶都包含数百个顶点。
  粒子做的雪片在两个角色的打斗过程中被人物身上PhysX力场(Force Field)卷起。粒子做的雪片在两个角色的打斗中被人物身上的力场和人物动作的剑气扰动, 数千个粒子的运动轨迹随着角色的动作而变化。通过对真实碰撞的模拟, 角色将布料撞开。每一块布料都包含数百个顶点, 可以更加精确地展示出柔软的效果。
  粒子模拟的万花谷中满地的花瓣,随着人物角色的气场而运动,展现出剑3的动作美学。
  同屏200名完全独立的玩家角色,使用CUDA逐帧计算所有玩家角色的动画, 解决了现有游戏在显示大量同屏玩家时无法开启高特效的困难。所有人物均使用最高精度模型、最高精度阴影、完整的水面反射和折射。
GTX480/470规格解析
完整GF100核心拥有512个CUDA核心,不过出于功耗及良率等因素的考虑,GeForce GTX 480被屏蔽了一组SM,也就是480个,而GeForce GTX 470则只有448个!
  GeForce GTX 480采用1536MB/384Bit的规格,虽然位宽比GeForce GTX 285有所降低,但是GDDR5显存弥补了带宽的损失,默认频率700/1401/1848MHz(等效3696MHz),长度10.5英寸,实测比Radeon HD 5870稍短,
适应性更强!显卡额定TDP 250W,采用6pin+8pin供电,接口部分采用了双DVI+Mini-
  GeForce GTX 470采用1280MB/320Bit的规格,默认频率607/1215/1674MHz(等效3348MHz),额定功耗215W,长度9.5英寸,接口与GeForce GTX 480同为双DVI+Mini-HDMI。
  关于显卡的详细解析我们会在后文为大家说明,这里暂且不表!
GF100真身展现
NVIDIA GeForce GTX480
GeForce GTX480的“金钟罩”
  初次见到这款NVIDIA GeForce
GTX480显卡的时候就被其威武雄壮的外观所震撼,显卡外观依然延续了NVIDIA以往的风格,只不过这次的GeForce
GTX480在外观中加入了金属元素。犹如铁甲一般的金属是显卡核心散热器的一部分,而其上布满了增加金属凹槽,这一方面可以增加散热器的表面积,提升散热效率;另一方面也为显卡增加了更多的视觉效果。而GeForce的铭牌也镶嵌其中,稳重、大气。
  这款GeForce
GTX480显卡毫无意外的采用了双插槽、涡轮
设计。这款显卡长度为10.5英寸,也就是26.5厘米,与AMD Radeon
HD5870长度一样,因此中意这款显卡的玩家们首先要准备一个足够大的机箱,以免进行裸奔。
显卡重量
  而在重量上,这款GeForce GTX480也绝对称得上是重量级选手。经过电子秤的称量,GeForce
GTX480的实际重量为932克,在当今民用显卡中绝无仅有。这一方面是因为其10.5英寸的身形,另一方面是因为其采用了超大体积金属散热器和全金属框架设计。
硕大热管更显威武
显卡热管
  说这款显卡雄壮的另一个原因,那就是GeForce
GTX480汲取了非公版显卡设计的一个重要元素,那就是热管裸露。GeForce
GTX480采用了四根8毫米直径热管将散热器底座与上部的散热片结构连接在一起,能够有效的将核心的发热量传递到散热片的上部,并借助流动的外部空气和强劲的涡轮风扇将热量带走。
显卡外接供电部分
  由于采用了容量大1.5GB的GDDR5显存和强劲的显示核心,所以本次GeForce
GTX480显卡在外接供电的配置上也首次启用了6Pin+8Pin的外接供电组合。而根据输出规格来看,8Pin供电接口可以为显卡提供两路12V输入,功率可达150W;而6Pin接口也可以为显卡提供一组12V输入,功率最大为75W。所以两组供电接口总计可以为显卡提供最多225W的电力,保证显卡的稳定运行。
显卡接口部分
  在接口部分的配置上,GeForce GTX480也有相当的进步。显卡提供了两组DL-DVI接口,每组都可以支持最高2560×1600
60HZ的显示模式。另外,显卡还颇具前瞻性的提供了一组mini-HDMI接口。但不幸的是,我们并没有在显卡上看到
显卡PCB仔细瞧
显卡背面
  为了增加散热器的进风量,NVIDIA特意在显卡PCB上开了一个与风扇形状一直的口,方便冷空气从显卡背面进入散热器。而根据一般机箱中的结构来看,显卡正面一般都要面对
、CPU等高发热元件,而面对显卡后背的
则发热量很小,从正面吸入的空气温度要比从背面吸入的空气温度高很多,所以从背面取风也是个相当精妙的设计。
显卡PCB
  拆掉散热器,我们就见到了全呼万唤始出来的GF100显示核心。处在PCB中央位置的就是核心代号为GF100的GeForce
GTX480显示核心,而周围分布了12颗
产GDDR5显存。而这颗GF100核心也按照NVIDIA的传统,加上了金属保护罩,所以我们无法得知GF100核心真正的DieSize。显卡采用8相供电设计,其中的6相负责核心供电,两项负责显存供电。从元件的排布上我们也可以发现,由于PCB上有取风口的设计,所以显卡PCB的后半部元件排列并不十分紧密,因此在之后的非公版GeForce
GTX480显卡中,我们很可能见到更短的PCB设计。当然,前提是要保证核心和显存部分的充分散热。
显卡供电部分详解
显卡供电部分
  总体来说,显卡供电部分设计相当豪华。既然采用全包围式散热器,那么体积更小、高度更低的数字式供电就成为了GeForce
GTX480的首选。为了保证核心供电,显卡采用了顶级
贴片固态电容,并配以带有金属屏蔽罩的高品质全封闭式电感。而在供电的Mosfet部分,NVIDIA则不惜工本采用了难得一见的
LFPAD封装Mosfet,这种封装模式不仅具有体积小、发热低的特点,更能够提供接近20A的电流输出能力。在这款显卡的供电部分中,每项供电配备了三个LFPAD封装Mosfet。
  而在显存部分中,显卡也采用了数字式供电模块。其组成形式与核心供电部分相近,同样采用了固态电容+全封闭式电感+LFPAD封装Mosfet的模式。只不过由于GDDR5显存的耗电量并不高,所以每项供电之配备了两支Mosfet。
显卡钽电容
  不少朋友也许会疑惑,如此高端的显卡为何不见钽电容的身影?其实为了方便布线,显卡的钽电容被设计在了背面,而这样的设计也更显YY。显卡采用的钽电容为日本
生产,采用E型封装。显卡为每项核心供电都配备了一支钽电容,总计六支,而加上核心时钟发生器部分的一枚钽电容,GeForce
GTX480显卡的钽电容用量达到了7枚,奢华程度可见一斑。
显卡接口部分电路
  NVIDIA在GeForce
GTX480显卡的性能和供电上做足了功夫,而最基本画质输出部分当然也不会有所收敛。为了保证显卡输出画质的完美,每个接口部分都有相应的输出滤波电路。
黑色盔甲——散热器
显卡散热器
显卡框架
  介绍完显卡内部,下面就让我们来看看显卡散热器。显卡散热器采用了双层结构。除核心之外的电子元件(包括供电部分以及显存)均与金属框架相连,而金属框架上的散热鳍片也可以增大散热面积、有效保证这些部件的凉爽。显卡核心拥有独立的散热器,也就是我们前面见到的4热管散热器。这样的设计可以加强显卡核心的散热,不让其他高发热元件将热量传导给核心。
  最后,我们就来看一下参与本次评测的NVIDIA两代显卡全家福。从上至下分别是GeForce GTX480、GeForce
GTX470和美国BFG GeForce GTX285 OCFU。
测试平台以及说明
  为了考验GeForce GTX480的真实性能,我们特意组建当今最强平台X58
+i7 X980+
6G三通道内存。
硬 件 测 试 平 台
Core i7
X980(45nm、1333MHz FSB、
3.3G、L2 Cahe12M)
P6T SE(X58)
NVIDIA GeForce
NVIDIA GeForce
BFG GeForce
GTX285OC(712/1620/2664MHz)
AMD Radeon HD5870
3007WFP LCD
芝奇DDR3 1600 2GB
x3(9-9-9-24)
Raptor 150G
HardDisk Driver x3
TT ToughPower
统 平 台 及 驱 动 信 息
操作系统
Microsoft Windows
7 Ultimate
显示驱动
GeForce
GTX480/470:NVIDIA forceware 197.17 for win7-32bit
GeForce GTX285:NVIDIA forceware 196.21 for win7-32bit
AMD 催化剂10.2 for
win7-32bit
主板驱动
Device Software
驱动9.1.1.1027
DirectX版本
DirectX
10/10.1/11 API
  在评测开始之前,我们还是先来看看两款NVIDIA新显卡的GPU-Z信息。
GeForce GTX480显卡GPU-Z信息
GeForce GTX470显卡GPU-Z信息
  虽然我们采用了最新的GPU-Z 0.3.9版本,但其对两款显卡都不能正确识别。预计在GPU-Z的下一版本中,两款GF100显卡的信息就能够正确显示了。
  另外,由于属于上一代显卡的GeForce GTX285并不支持DX11
API,所以GTX285显卡并不参与本次测试的DX11游戏环节。
DEMO展示之Hair篇
  首先我们为您带来将是NVIDIA为配合这次费米显卡发布而准备的几款DEMO,首先登场的是一款名为Hair的DEMO,其主要考验GPU的曲面细分能力和物理运算能力。
头发静止时
头发摆动时
  这款DEMO可以模拟任务头发摆动的场景。由于DX11曲面细分技术的加入,用户可以藉由显卡GPU来生成更加逼真浓密的秀发。而根据DEMO的效果来看,其逼真程度已经接近C***平。而由于NVIDIA
CUDA技术的加入,头发摆动路径也更加自然、流畅。
  DEMO预制了风和三种人物动作方式,玩家可以从各个角度细致的观察人物头发在风和不同动作中的摆动方式。DEMO支持硬件曲面细分和软件模拟两种模式,硬件曲面细分会利用GPU资源来进行运算,而软件模拟模式则只会用到CPU资源。玩家可以通过两种模式体验到硬件曲面细分在帧数和动作质量上的巨大提升。另外,DEMO还可以选择长短发以及人物动作幅度。
  经过测试,我们发现,长发模式比短发模式更消耗资源。在使用GeForce
GTX480显卡进行测试时,短发模式即便在激烈的运动中也可以接近100帧,而长发模式的帧数则只有约60帧。同样支持DX11曲面细分技术的AMD Radeon
HD5000系列显卡也可以运行此DEMO,不过帧数就相差很远,而且由于不支持NVIDIA CUDA技术,所以在头发剧烈摆动时帧数下降非常剧烈且摆动也不自然。在长发测试中,NVIDIA
GeForce GTX480显卡能时刻保持在60帧以上,而AMD Radeon HD5870显卡在同样的测试中只能保持在20帧左右,差距十分悬殊。
DEMO展示之Island篇
  之后我们将要为您呈现的是另一个体现显卡曲面细分能力的测试场景——Island。
游戏测试场景(最高曲面细分等级)
游戏测试场景(最低曲面细分等级) 众所周知,水面运动是极其复杂和不规则的,而这种运动如果用显卡来表现则非常困难,因为每个波浪都需要由大量的多边形进行构建,而无数的波浪对于显卡来说只能用灾难来形容。这款名为Island的DEMO则可以通过最新的硬件曲面细分技术来模拟水面的波浪运动。DEMO可以通过调节曲面细分等级来实现不同真实度的水面波浪,多边形生成量可以从最低的几万多边形到最高接近600万多边形。而水面波浪效果也会随着多边形数量的提升而更趋真实,这一点可以通过上面的两张截图充分体现出来。
场景多边形数量(最低等级曲面细分)
场景多边形数量(最高等级曲面细分)
  通过上面的两张截图的对比,我们可以直接的看到高等级曲面细分所带来的多边形数量提升。与Hair场景相同,AMD Radeon
HD5870显卡同样可以运行该DEMO。但通过实际运行我们发现,NVIDIA GeForce
GTX480显卡在最高等级曲面细分下帧数仍能保持在20帧以上,而AMD Radeon
HD5870显卡在同样的设置下帧数只有1-2帧。超过10倍的差距主要得益于NVIDIA独创的曲面细分优化技术,和更高效的执行单元。
DEMO展示之Design Garage篇
  之后我们为您呈现的将是一款名为Design Garage的场景,其主要测试NVIDIA显卡的通用计算能力。
DEMO截图
DEMO截图
  场景通过创建光线追踪模型来考察显卡在通用计算当中的性能,DEMO最大分辨率为1024×768。DEMO预制了数个场景、车型和视角,而光源的位置和强弱也可以自由调节。众所周知,光线追踪是一种对计算能力要求极为苛刻的运算,如果通过CPU来计算的话一张1024×768分辨率的图片往往需要数十分钟至数小时的渲染时间,而这也是众多Maya用户每天都会遇到的情况。而采用NVIDIA
GeForce
GTX480显卡之后,渲染一张分辨率为1024×768分辨率的光线追踪图片仅仅需要几十秒的时间,真实天壤之别。由此我们可以大胆的想象,即时光线追踪将可以在10年内成为可能并应用到游戏当中,而游戏和CG电影中的最大区别也会渐渐模糊,令人激动不已。而这款DEMO最大的现实意义就在于广大CG工作者可以借助NVIDIA
GF100核心显卡极大的提升工作效率和利润,而CG的入门学生也可以藉由渲染效率的大幅提升而加快学习进步的速度。
  由于这款DEMO采用最新的CUDA C++语言编写,所以目前只有GF100核心显卡才能支持此DEMO。
DEMO展示之Raging Rapids Ride篇
  接下来登场的是一款名为Raging Rapids Ride的DEMO。
DEMO截图
DEMO截图
  这款DEMO主要考察显卡的PhysX能力,DEMO中大量飞溅的水花、水的流动、小艇的运动以及方格旗都是对显卡物理性能的最好体现。除此之外,在DEMO中还会有巨石不时从山上滚下,溅起大量的水花。DEMO中水花的数量和运动质量都是我们在游戏中不曾见到的,而采用GF100核心的GeForce
GTX480显卡则可以时刻保持流畅,物理性能可见一斑。
DEMO展示之Supersonic Sled篇
  之后登场的是一款名为Supersonic Sled的DEMO。
破碎的房屋
断裂的桥梁
掉下的巨石
无处不在的曲面细分技术
  游戏通过控制一辆超音速雪橇来展现其对周遭环境的影响。DEMO中有三个标志性的场景,分别是被吹飞的小木屋,坍塌的桥梁和坍塌的巨石。三个场景都带有大量的物体运动以及完整模型的破碎,对显卡物理能力是最好的考验。而我们的GeForce
GTX480及时是在2560×1600的分辨率下也能够在大量物体运动的场景中达到20帧的水平,物理性能十分强大。而如果仔细观察,我们发现这个场景中也有曲面细分技术的参与。
在家也能做贡献之蛋白质折叠篇
  人类寿命的延长在很大程度上与医学进步有关。而目前医学的主要探索方向则是微观而复杂的。通过人工制造各种不同的蛋白质,人们可以战胜疾病,所以蛋白质的研究已成为当前医学领域中的主要研究方向之一。用户可以通过下载一个免费小程序来参与到Floding@Home项目中来,这是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。他使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程,并指引科学家们近期对由折叠引起的疾病的一系列研究。而即便是在这一领域,GeForce
GTX400系列显卡仍然能够发挥作用。让用户可以在更短的时间内为公共医学项目贡献更多的计算资源,帮助科学家们早日攻克帕金森综合症等顽疾。
  通过上面的测试结果,我们可以发现,在采用GF100核心系列显卡之后计算资源输出效率有了大幅度的提升,也就是说用户可以在更短时间内作出更多贡献。而同为GF100核心的GeForce
GTX480也因为核心内部集成更多
而具备更高效能。
基准性能测试——3DMark Vantage
  在介绍完技术展示DEMO之后,我们就要开始对NVIDIA GeForce
GTX480/470显卡的实际运行测试了,首先登场的当然是3DMark Vantage了。
  3DMark Vantage是专门针对微软DX10 API的综合性基准测试工具。 此前的3DMark最终结果只有一个简单的分数,3DMark
Vantage一个全新特性是引入了四种不同等级的参数预设(Preset),按照画质等级划分成了入门级(Entry,E)、性能级(Performance,P)、高端级(High,H)、极限级(Extreme,X)四类。测试结果改成了“字母等级”加“数字”的组合形式。
  之前v1.0.0发布时,除专业版外其他版本必须联网提交数据才能生成分数,导致很多玩家对其敬而远之,看来Futurmark是听取了玩家的建议,最新的1.0.1补丁已经取消了这个限制,高级版、基础版和试用版都可以离线使用。
  在3DMark
Vantage中我们测试了Performance和Extreme两种模式,在Performance模式下,分辨率为1280x1024,关闭抗锯齿,各项异性过滤为
;而在Extreme模式下,分辨率则为1920x1080,4倍抗锯齿,16倍各项异性过滤。通过测试结果对比我们可以发现,GeForce
GTX480显卡领先竞争对手产品达到10%,而其绝对分数已经非常接近20000分,根据以往的经验3DMark
Vantage已经离下一代不远了。而在追求极致画面的Extreme测试模式下,GeForce
GTX480更将领先优势扩大至14%,看来GF100优秀的核心架构和巨大的显存带宽在高分辨率高抗锯齿环境下更具优势。
另外需要说明的是由于Future对测试程序作出改动,所以显卡在测试时将PhysX功能禁用,否则将无法通过测试中的CPU
TEST第二场景《Crash&am Burn》。
DX11性能测试——《山岭巨人》
  日前,游戏引擎开发商BitSquid与游戏开发商Fatshark联合公布了一个叫“山岭巨人(StoneGiant)”的测试DEMO,这款DEMO集中展示了DX11中大放异彩的曲面细分技术,并将其与软阴影、景深等DX11的拿手好戏结合起来,是DEMO画面美轮美奂,非常真实。DEMO的主角是山岭巨人,其凹凸起伏的岩石身躯是展现曲面细分技术的最好平台,而这一点与我们常用的Unigine测试DEMO如出一辙,只不过在对硬件曲面细分引擎的优化上《山岭巨人》后来居上。
  这款游戏支持DX11,所以我们把不支持DX11的GTX285显卡剔除测试队列,因为其在不同架构、不同API、不同游戏设置下产生的测试数据与其他三款显卡相比没有测试意义。
  在整个测试过程中GeForce
GTX480/470显卡运行都比较流畅,而这一情况在最终的测试结果中也有所反应。而就绝对帧数而言,采用GF100核心的GeForce
GTX400系列显卡都能够大幅领先竞争对手的产品,最高幅度达到90%。这一方面是由于GF100强大的核心处理能力,另一方面也是由于GF100核心对曲面细分运算的细致优化所致,所以得到这样大差距的对比并不稀奇。
DX11性能测试——《战地:叛逆连队2》
  喜欢
类型游戏的玩家一定不会错过《使命召唤
:现代战争
》这款游戏,在经历了《使命召唤
:世界战争》后,这款经典的游戏又重新以现代战争为题材,战争氛围的营造、武器人物建模的设计都让每一个玩家大呼过瘾,这样经典的游戏设计再多的关卡大家也觉得不经玩,笔者和很多玩家一样,感觉没怎么玩就通关了,多少有些意犹未尽,没关系,因为在
日,另外一款
大作《战地:叛逆连队
》发布了。
  EA DICE
小组之前已经推过
款“战地”系列游戏,在这一代作品中,玩家继续扮演普雷斯顿·马罗威(
Preston
Marlowe
)的角色,与“
连队”,即“叛逆连队”,展开新一场冒险旅程。此时,
连队的士兵们已经归队,这意味着他们可以使用自己军队提供的各种支援,不必再四处搜寻、掠夺物资。此时,国际局势已经完全恶化,俄美战争全面打响,俄军进攻阿拉斯加的战役已持续近两星期。游戏开始时,
连队来到了格鲁吉亚的乌瑟尔山(属高加索山脉)附近,准备执行上级下达的命令。
  由于GeForce
GTX480和GTX470采用了相同的架构,只是在处理单元和频率、显存容量上有所区别,所以在测试成绩折线图中我们可以发现GTX470的成绩就像是GTX480显卡在
较低档位上的翻版。而就这款《战地:叛逆连队2》来说,GeForce
GTX480领先竞争对手产品的幅度并不十分明显,越在5%左右。
DX11性能测试——《科林麦克雷:尘埃2》
  《科林麦克雷:尘埃
》平台仍面向
》执行制作人
Raeburn
表示新作将在画面、物理、职业生涯,及多人连线方面有长足的进步。该作在北美以外地区将被冠以《科林麦克雷:尘埃
》的头衔,以纪念去年在直升机事故中丧生的传奇车手科林
麦克雷,据称新作还将参考麦克雷本人晚期职业生涯。
  游戏支持DX11
API,光影效果非常出众。而其除了的碰撞和运动模型也让游戏中的赛车几乎与现实中无异,对操作的要求和可玩度非常高,是骨灰赛车玩家的必备之物。
  在这款《科林麦克雷:尘埃2》中,GeForce GTX480的表现相当抢眼,在1920X1200
4XAA的测试中领先竞争对手的产品17%,而在2560X1600分辨率中,这一优势则为11%。
DX11性能测试——《潜行者:普里皮亚季召唤》
  《S.T.A.L.K.E.R:普里皮亚季召唤》采用GSC的X-Ray图形引擎开发,并且支持DirectX
11。游戏故事发生在《切尔诺贝利的阴影》的故事之后,普里皮亚季是乌克兰的一个城镇名字,是切尔诺贝利事件的隔离区,它是一座被废弃的城市,具体在乌克兰首都基辅以北的区域,民间有“鬼城”之称,现时Pripyat市已经成为了一个旅游景点。
  在这款以画质和广阔场景而著称的游戏中,GeForce
GTX480依然能够保持性能的领先,除采用更强劲的核心之外,更高的显存带宽也是其胜出的原因。GeForce GTX480在两种高分辨率下均领先对手16%以上。
DX11性能测试——《地铁2033》
  之前有消息说《地铁2033》游戏引擎是乌克兰工作室GSC Game World的X-Ray引擎,但是4A
Games表示《地铁2033》采用全新的4A引擎,4A Games还表示之处曾经想采用虚幻3引擎,但是虚幻3引擎并不想宣传的那样完美,4A
Games才决定独自开发一款引擎!
  4A引擎使《地铁2033》的硬件要求达到了一个前所未有的高度,需要Core i7处理器和GeForce GTX 480显卡,如果能拥有NVIDIA 3D
Vision系统,那么效果会更加震撼,需要说明的是,这也是第一款开发之处就考虑到3D立体效果的游戏。
  这款新发布的游戏毫无疑问的能够成为显卡杀手,也几乎是本次测试中平均分最低的测试项目,而这也足以说明这款游戏在引擎和画面上的功力。GeForce
GTX480显卡在这款游戏中虽然绝对帧数并不高,但其领先竞争对手的幅度却可以用数十倍来计算。这就足以证明DX11+PhysX的强劲实力。
DX11性能测试——《Unigine 2.0》
  在前段时间因第一个放出DX11基准测试而名声大振的Unigine Engine近日又推出了DX11基准测试升级版——Unigine Heaven
2.0。在这个版本中,Unigine Engine仍然大量采用了曲面细分技术这一DX11的标志性特效。但不同的是测试场景有了一定的改变,Unigine
Engine为这个悬浮在空中的“哈里路亚山”加入了停靠的飞艇、炮台等物件,而这些物件也一直是3D Mark系列的标志基准测试软件的标志。不知这一改变是否预示着Unigine
Engine要像FutureMark一样在基准测试领域中分一杯羹。
  除了场景的更新之外,Unigine
2.0还在测试中加入了曲面细分等级的调节、日光调节等重要功能,使这款基准测试软件有了更加丰富的功能,可玩性也大幅提升。而新加入的材质(如火炬、木质器物、和更多机械部件)也具有更广泛的代表性,让这款测试成绩的前景进一步明朗。
  在这款新一代DX11基准测试软件中GeForce
GTX480不仅毫无意外的拔得了头筹,更出现一个非常有趣的现象。那就是在游戏的火龙雕像场景中,NVIDIA显卡领先AMD显卡的幅度大幅上升。这主要是得益于GF100核心经过优化执行单元能够更高速的处理曲面细分场景。因此,我们也可以看到,GeForce
GTX480显卡在两种分辨率下均能够领先对手产品25%以上。
DX10性能测试——《孤岛危机:弹头》
  《孤岛危机:弹头》是由德国Crytek
Studios开发,美国艺电(EA)发行的一部孤岛危机正统续作。玩家将在游戏中继续借助Nanosuit与外星种族展开最后的生死搏斗,与众多新增角色一同进行惊心动魄的冒险之旅。此作将全面强化Nanosuit作战服的崭新能力与操作体验,新加入的“Advanced
AI”技术将把游戏互动体验提升到一个史无前列的巅峰高度。
  玩家将扮演人称“Psycho”的Sykes士官长——这位《孤岛危机》中最令人怀念的角色之一,比起他的三角洲部队伙伴Nomad,Psycho更加性急且暴力。玩家将在岛屿的另一端展开冒险,进行超乎想像的刺激行动,对抗在制作公司Crytek强化AI系统加持下的众多人类与异形敌人。
  在这款经典的“显卡危机”测试中,GeForce
GTX480依然能够保持领先,幅度均在5%左右。
DX10性能测试——《孤岛惊魂2》
  在《孤岛惊魂2》里的非洲没有变异的怪物,也没有冷冻射线,尽管这款游戏仍然叫作《孤岛惊魂》,但开发商已经不再是Crytek了。新的开发商育碧蒙特利尔工作室决定将前作科幻的色彩彻底抛弃,打造一款更加真实的游戏。同时前作的主角Jack
Carver也将不再出现在新作里。
  游戏中的非洲将会为玩家带来类似于《
》或是《上古卷轴湮灭》那样的无缝广阔开放世界。游戏会有一点点的角色扮演的感觉,会有可以给你提供装备和任务的
,随着你的选择不同,还会有不同的
同伴和你并肩作战。
  《孤岛惊魂2》的Benchmark测试场景选择的是非常激烈的战斗画面,因此我们可以看到几乎所有显卡都会随着战斗激烈程度的增加而出现帧数下滑。不过测试成绩依然显示出GeForce
GTX480能够在测试过程中始终保持对竞争对手产品的压制。
DX10性能测试——《街头霸王4》
  《街头霸王4》沿用了被广大玩家所熟知的2代为基础,里面众多精彩的角色都将悉数登场。操作也没有太大的变动。游戏除了有隆与肯大家熟悉的面孔之外,还有许多新登场的角色,让《街头霸王4》的战斗更加白热化。
  在《街头霸王4》这款游戏的测试场景中会出现一个非常有趣的现象,那就是NVIDIA显卡会出现因帧数高低而不同的加速现象,而这也正是场景帧数折线图始终无法对齐的原因。不过这一现象也说明GeForce
GTX480显卡在帧数上能够取得巨大优势。
DX10性能测试——《潜行者:晴空》
  作为大受好评的《潜行者:切尔诺贝利阴影》的前作,《潜行者:晴空》以FPS方式进行的RPG的续作,将时间设定在前作的一年之前。玩家扮演Scar,一名对所有诡异能量有免疫性的潜行者。玩家像前作中一样,可以和不同的组织结盟,也可以收集圣物,升级自己的装备。极高的自由度把选择权交到了玩家手中。
  与前作还停留在DX9.0c的画面特效相比,Stalker:晴空资料片加入了大量DX10特效(神光、柔和粒子、SSAO、动态容积雾、动态浸润表面),让游戏画质全面提升了一个档次,但因此开发人员需要花大量时间重新编写游戏引擎的代码。此外,晴空资料片的光盘版为独立***程序,并不需要前作。
  这款游戏作为《潜行者》系列游戏中的一款,其理所应当的继承了系列地形宽广、模型精细的特点,而显存带宽更高的GeForce
GTX480也理所当然的能够继续保持压制性的优势。而随着分辨率的提升,这一优势从10%提升至接近20%。
DX10性能测试——《汤姆克兰西:鹰击长空》
  育碧公司于三月三日放出空战游戏 Tom
Clancy's H.A.W.X《鹰击长空》
PC版本试玩Demo,体积高达1.24GB。正式版本预计本月10日左右发售。这是育碧推出《刺客信条》后又一款支持DX10.1的游戏。游戏背景设置于2012年,随着科技的急速发展,国与国的关系更紧密,对军事需求日益扩大,为了不断提升实力,越来越多的国家依赖于私人军事公司(PMC)的精锐部队。雷克雅未克公约透过法律制度一步一步合法化PMC的地位,大大提升了他们军事的权力。渐渐地PMC的势力引起了政府关注,政府开始采取军事行动制止其扩张。
  本游戏有完全的三维环境、18个作战任务、多人游戏网络对战,充分展现了战斗直升机的各项功能。玩家的战斗任务就是,保护岛屿上的人民,抵抗腐败当局及其部队。为了表现真实,敌机和友机都可以攻击并摧毁。每个关卡都有很多分支任务。另外,还能和其他玩家在网上一绝高下,看看谁是最优秀的飞行员。
  这款空战类游戏场景开阔,但多边形数目较少,因此其主要考察显卡GPU的计算能力。而搭载强力GF100核心的GeForce
GTX480显卡则可以凭借强劲的处理能力在测试中轻松取胜,而其领先幅度则会随着分辨率的上升而上升,从16%提升至20%。
PhysX性能测试——《Darkest of Days》
  《Darkest of Days》(黑暗之日)由Phantom EFX开发,于北美时间8月11日放出试玩版。这是一款历史题材FPS游戏,玩家将会穿越时空,回到那段已经载入史册的战争、血腥、死亡的杀戮日,重温一些人类历史上最为可怕的事件,那正是人类社会处于最低点的时候。你将会参与到一些恐怖的时间中去,如美国南北战争中的安提塔姆之役、美国军队与印第安人冲突的小大角战役、一战、二战甚至回到庞培时代与罗马军队作战等等。玩家将必须试图挽救一些跟这些可怕的事件有关的关键人物,从而将人类历史转向更好的一面。游戏使用了公司专有的Marmoset游戏引擎,让《黑暗之日》拥有壮丽的视觉效果、高超的游戏性以及最可信的故事构思。
  物理性能一直是NVIDIA的看家本领,而这一点在新一代的GeForce GTX480显卡上也不会有任何改变,测试环节GeForce
GTX480以及其他NVIDIA显卡所呈现出的压倒性优势就足以说明一切问题。
PhysX性能测试——《Cryostasis》
  《Cryostasis》是一款有着生化危机类恐怖故事情节的FPS游戏,将于今年初发布。游戏背景设定在1968年北冰洋的俄罗斯海岸附近,男主角是气象学家Alexander
Nesterov,其任务则是调查一艘在那里冰

参考资料

 

随机推荐