引爆DX11核武!NVIDIA新君GTX480首测

互联网 | 编辑: 马振华 2010-03-27 12:00:00原创 一键看全文

你见过可随意变大变小的高速缓存吗?

●随机应变的可编程式L1缓存

作为一种高速、可编程的片上存储器,共享存储器是第一代CUDA架构中的一项重要架构创新。通过促进线程间的通信,共享存储器让各种各样的应用程序均能够在GPU上高效地运行。从此共享存储器便被所有主要的GPU计算标准与同类架构所采用,例如Intel在酷睿处理上便开始使用共享式L2缓存。

由于意识到了共享存储器至关重要的作用以及保持数据本地性的重要性,NVIDIA再一次扩展了GPU缓冲存储器的规模。在GF100芯片内,每个SM群组均内置了一个自身专用的1级高速缓存。

每个SM均整合了64KB的L1缓存,这部分缓存的以容量配比划分可工作在两种状态。可配置为16KB的1级高速缓存外加48 KB共享存储器,或配置为16 KB共享存储器外加48 KB的1级高速缓存。

对于图形程序,GF100能够利用16 KB 1级高速缓存配置。1级高速缓存的作用是充当用于寄存器溢出的缓冲区,让寄存器的使用能够实现不俗的性能提升。针对计算程序,1级高速缓存以及共享存储器让同一个线程块中的线程能够互相协作,从而促进了芯片内数据广泛的重复利用并减少了芯片外的通信量。共享存储器是使许多高性能CUDA应用程序成为可能的重要促成因素。

● 高速L2缓存

GF100拥有一个768 KB的统一2级高速缓存,该缓存可以为所有载入、存储以及纹理请求提供服务。2级高速缓存可在整个GPU中提供高效、高速的数据共享。物理效果解算器、光线追踪以及稀疏数据结构等事先不知道数据地址的算法在硬件高速缓存上的运行优势尤为明显。后期处理过滤器需要多个SM才能读取相同的数据,该过滤器与存储器之间的距离更短,从而提升了带宽效率。

统一的高速缓存比单独的高速缓存效率更高。在不统一的高速缓存设计中,即使一个高速缓存被程序过多地预订,它也无法使用其它高速缓存中未贴图的部分。高速缓存的利用率将时钟低于理论峰值。GF100的统一2级高速缓存可在不同请求之间动态地平衡负载,从而充分地利用高速缓存。2级高速缓存取代了之前GPU中的2级纹理高速缓存、ROP高速缓存以及片上FIFO。

与只读的GT200 2级高速缓存相比,GF100的2级高速缓存既能读又能写,而且是完全一致的。这种算法包含了各种检查,可帮助确保所需的数据能够驻留在高速缓存当中。

提示:试试键盘 “← →” 可以实现快速翻页 

一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑