2002年5月3日,3Dlabs公布了一款号称会改变我们未来视频功能的产品——VPU(Visual Processing Unit视觉处理单元),这种产品不同于目前的主流的GPU(图像处理器单元),而是一种全新的显示处理架构。在今后这种全新的处理单元很有可能改变我们的显示方式。
3DLabs的历史
综观3DLabs的发展历程,这是一家多年从事专业显示芯片制造的老牌公司(现已被创新收购),具有相当出色的设计研发能力,开发了众多面向专业领域的显示芯片。其完美的基于OpenGL全集的兼容性也为人津津乐道。专业领域有代表的Glint Delta芯片,还有为众多3D Fans推崇的入门级显示芯片Permedia2。而现在,VPU的提出也是证明其实力的最好方式。那么说了半天的VPU,这到底是一种什么东西呢?它又有什么特色呢?以下我们一起来看看!
VPU简介
1999年率先由NVIDIA提出的GPU概念确实在当时引起了巨大的反响,因为GPU可以把本来由CPU处理的光照和转换都由显示核心来处理,这样不但降低了CPU的占用率,同时也提高了显示速度,因为所有需要处理的光源等数据无须同处理器来进行交换,这样当然处理的速度会提高。VPU同GPU的功能类似,但是其却引入了可编程的先进概念,让本来GPU不可能达到的效果现在能达到了。
那么显示核心为什么也需要可编程呢?我们知道,现在的CPU是一种完全可以被编程的硬件,能不能让现在的显示核心也向CPU那样完美的支持可编程呢?也就是除了支持普通的3D编程以外,同CPU一样可以直接执行目前主流的高级语言,比如:C/C++、FORTRAN、Java等,如果这个梦想可以实现,那么这种显示核心就可以像CPU一样执行更多的功能,并且我们控制的灵活性和完全性也大大增加。而VPU就是这样一种东西,它最大的好处就是不需要使用固定的或者专一的API来控制,而是可以使用开放的标准,每个公司可以使用不同的编程语言来实现对显示卡的控制,而不用再去研究使用哪种功能单调的开发标准来开发3D应用软件。
同其他的显示核心不同,P10使用了位宽为256位的DDR显存总线,更高的位宽代表显示核心可以具备高达20GB/s以上的显存峰值带宽。
P10的6大特点
P10的6大特点
★第一款支持多线程的图形芯片
目前的显示核心处理多线程3D的时候就比较困难了,因为很多数据都需要按照顺序来处理,并且显示核心会分配固定资源给3D进程,因此实现多重线程就比较困难。不过3DLabs却走出了第一步,P10可以完美地执行并行的多线程任务,从而最大化地利用系统执行资源。
★具有强大的处理能力
现在主流的可编程GPU中,顶点渲染引擎已经可以支持顶点和光影的转换,GeForce 4支持2个顶点渲染引擎,P10则具备4个这样的引擎,从理论意义上来看P10的处理器能力高出GeForce 4 一倍。P10具备16个32位的顶点处理器(vertex processors 简称VP),每个顶点处理器允许在4个时钟周期处理4次顶点运算,由于每个VP都是平行工作的,因此P10的效率显然更高。
★P10风格的Pixel Shader
3DLabs认为ATi/NVIDIA的像素渲染引擎并不能算真正的可编程引擎。而P10就不这样,它的像素渲染引擎由多个32位的处理单元(3Dlab称其为texture processor,纹理处理器)组成,并且这些处理器单元依旧采用并行计算的方式工作,当然效率就变得比较高了。P10的像素渲染支持目前完整的DirectX 8中的像素渲染。
★可编程的抗锯齿效果
P10支持可编程的Anti-Aliasing(抗锯齿),一般来说抗锯齿是不通过纹理流水线进行处理的,因此其他的GPU都没有支持抗锯齿可编程性,但P10却可以由于其独特的处理流水线设计,因此这种支持可编程的抗锯齿无疑是一种全新的设计。
★支持10bit色彩输出
P10的像素引擎支持的另外一个可编程特点就是,支持64位色,当然色彩深度越高可以显示的效果也就越好(虽然我们的肉眼没有办法区别出来)。而输出方面P10支持10位的Gamma输出,其DAC也达到了10位的新高度,支持10:10:10:2( RGBA )的模式,当然这所有的一切都是可编程的。
图3 P10的4条像素流水线(浅色代表的是可编程,而深色则是固定功能。)
★支持L2缓存
P10引入CPU采用的L2缓存设计,3DLabs称其为Virtual Memory System (虚拟内存系统,简称VMS) 。VMS主要就是在主存中存储的纹理信息调用到显示核心的专用缓存中,当需要处理纹理的时候,就只要在缓存中下载大小为256×256 的32bit纹理信息就够了。
P10未来展望
展望
相信,你现在一定是迫不及待地想知道P10具体什么时候出现?目前3DLabs已经被多媒体巨擘创新(Creative)所收购,但3DLabs的商标依旧会在专业市场出现,P10很快就会在专业市场推出对应的版本。当然P10也会出现在消费/游戏市场。创新既然收购了3DLabs,那么P10就会被创新所生产,然后成为GeForce 4的直接竞争者(或者当时nVIDIA最高端的显示卡)。因此,3DLabs品牌的P10不可能会出现在消费/游戏市场上,而这些市场都只有创新品牌的产品。这个说法至少在1年以内是有效的。
以P10体系的结构来看,毫无疑问这是一款非常有竞争力的芯片,支持高级语言的可编程性让3DLabs的P10近乎完美,但是P10仅是VPU的第一代产品,但是其顶点处理器等几个方面可编程性还不是很灵活,下一代0.13/0.10微米制作工艺的核心会完全的支持DirectX 9.0,这样才是支持真正灵活的可编程性。
其实对于最终用户或者说专业用户来说,支持完整的DirectX 9.0并不能代表什么,P10支持即将推出的OpenGL 2.0规范才是真正令人期待的亮点。以3DLabs在专业显示领域的地位,P10通过各种软件和平台的支持是很容易的,加上其强大的性能已经众多特性的支持,P10一定会成功的。
|
3dlabs p10 |
geforce4 (nv25) |
radeon r200 |
晶体管数量 |
7600万个 |
6300万个 |
6000万个 |
制造工艺 |
0.15微米 |
0.15微米 |
0.15微米 |
内存总线位宽 |
256位ddr |
128位ddr |
128位ddr |
内存带宽(理论值) |
20gb/s |
10gb/s |
10gb/s |
可编程性 |
多种类型,支持循环和子程序 |
有限的dx8顶点和像素渲染 |
有限的dx8.1顶点和像素渲染 |
同时纹理处理能力 |
8 |
4 |
6 |
多采样 |
8 |
4 |
无 |
higher order surfaces(高次曲面) |
n-patches, bezier, b-splines, nurbs |
polynomial surfaces (bezier, b-splines) |
n-patches |
vertex(顶点)处理器 |
16个单周期多指令处理单元 |
2×4个矢量单元 |
4个矢量单元 |
纹理处理 |
128个单周期多指令可编程处理单元(单周期8个纹理的处理能力) |
固定寄存器 (每周期4个纹理的处理能力) |
固定寄存器(每周期6个纹理的处理器能力) |
抗锯齿 |
64个单周期多指令处理单元、8x 多采样、可编程 |
混合、4x 多采样 |
混合、6x 的随机采样、超采样 |
图像处理器硬件加速 |
64个单周期多指令处理器单元(同抗锯齿共用) |
无 |
无 |
dac输出精度 |
10bit |
8bit |
8bit |
网友评论