NV Fermi(GT300)通用计算架构探秘

互联网 | 编辑: 李昌--见习 2009-10-03 13:00:00转载一键看全文

NV Fermi通用计算架构探秘-4

G80/GT200都是8个流处理器构成一组SM(Streaming Multiprocessor)，Fermi增加到了32个，最多16组，少于GT200的30组，但流处理器总量从240个增至512个，是G80的整整四倍。

除了流处理器，每组SM还有4个特殊功能单元(Special Function UnitSFU)，用于执行抽象数学和插值计算，G80/GT200均为2个。同时MUL已被删掉，所以不会再有单/双指令执行计算率了。

至于SM之上的纹理处理器群(Texture Processor Cluster/TPC)，NVIDIA暂时没有披露具体组成方式，而且ROP单元、纹理/像素填充率等其它图形指标也未公布。

2、缓存

GT200的每组SM都有16KB共享内存，由其中8个SP使用。注意它们不是缓存(cache)，而是软件管理的内存(memory)，可以写入、读取数据。为了满足应用程序和通用计算的需要，Fermi引入了真正的缓存，每组SM拥有64KB可配置内存(合计1MB)，可分成16KB共享内存加48KB一级缓存，或者48KB共享内存加16KB一级缓存，可灵活满足不同类型程序的需要。

GT200的每组TPC还有一个一级纹理缓存，不过当GPU出于计算模式的时候就没什么用了，故而Fermi并未在这方面进行增强。

整个芯片拥有一个容量768KB的共享二级缓存，执行原子内存操作(AMO)的时候比GT200快5-20倍。

3、效率

CPU和GPU执行的都是被称作线程的指令流。高端CPU现在每次最多只能执行8个线程(Intel Core i7)，而GPU的并行计算能力就强大多了：G80 12288个、GT200 30720个、Fermi 24576个。

为什么Fermi还不如GT200多？因为NVIDIA发现计算的瓶颈在于共享内存大小，而不是线程数，所以前者从16KB翻两番达到64KB，后者则减少了20％，不过依然是G80的两倍，而且每32个线程构成一组“Warp”。

在G80和GT200上，每个时钟周期只有一半Warp被送至SM，换言之SM需要两个循环才能完整执行32个线程；同时SM分配逻辑和执行硬件紧密联系在一起，向SFU发送线程的时候整个SM都必须等待这些线程执行完毕，严重影响整体效率。

Fermi解决了这个问题，在每个SM前端都有两个Warp调度器和两个独立分配单元，并且和SM其它部分完全独立，均可在一个时钟循环里选择发送一半Warp，而且这些线程可以来自不同的Warp。分配单元和执行硬件之间有一个完整的交叉开关(Crossbar)，每个单元都可以像SM内的任何单元分配线程(不过存在一些限制)。

这种线程架构也不是没有缺点，就是要求Warp的每个线程都必须同时执行同样的指令，否则会有部分单元空闲。每组SM每个循环内可以执行的不同操作数：FP32 32个、FP64 16个、INT 32个、SFU 4个、LD/ST 16个。

提示：试试键盘 “← →” 可以实现快速翻页

总共 6 页< 上一页 1 2 3 4 5 6 下一页 >

一键看全文

本文导航

每日精选

华为Pura系列及全场景新品发布会

4月20日14:30，华为Pura系列及全场景新品发布会，我们不见不散。

标签：华为Pura| PuraXMax| Pura90| 华为全场景发布会| 2026-04-20
OPPO × 哈苏影像新品联合发布会

OPPO × 哈苏影像新品联合发布会，4月21日19:00，相约成都，敬请期待！

标签： OPPO×哈苏影像新品联合发布会| 2026-04-21
OPPO站稳全球高端第一阵营：均价位列全球第三

IDC发布最新数据显示，OPPO 在全球高端智能手机市场已经站稳第一阵营：2025 年，OPPO 在全球 500–550 美元价格段份额位列第一，在全球 TOP 8 厂商中仅次于苹果与三星，稳居全球第三

标签： OPPO| 高端手机| 均价第三| 2026-04-17
不止大阔折华为Pura X Max伴随式AI重构折叠屏体验

华为Pura X Max在AI领域有着创新体验。全新的小艺伴随式AI，打破了此前用户主动发起的使用模式，能够无感化地融入用户日常生活，在潜移默化中帮用户解决各类需求。

标签：华为| 华为PuraXMax| 伴随式AI| 2026-04-17
Keychron G4鼠标发布，红白复古设计搭载PAW3950传感器

PChome4月17日，Keychron正式发布全新轻量化三模游戏鼠标G4，新品主打复古美学设计与旗舰级硬件组合，定价79.99美元（约合人民币547元），定位中高端游戏外设市场，已于发布当日全球开售。

标签： Keychron| 鼠标| KeychronG4| 2026-04-17
致态首款PCIe 5.0 SSD TiPlus9100发布，国产性能创新高

PChome4月17日消息，致态正式推出旗下首款PCIe 5.0固态硬盘TiPlus9100，凭借12000MB/s的旗舰读取速度与创新无缓存设计，成为国产高端存储的全新标杆。产品将于4月17日在京东开启预售，4月24日正式开售。

标签：致态| TiPlus9100| 固态硬盘| SSD| 2026-04-17
曜越TR300系列ATX机箱，推出两款机型售价599元起

PChome4月17日消息，曜越TR300系列ATX机箱正式开售，推出标准玻璃版（TR300 TG）、实木饰条版（TR300 WS）两款机型，基础售价599元起，还支持选配6英寸LCD副屏，面向中高端DIY玩家打造。

标签：曜越| TR300| ATX| 机箱| 2026-04-17
希未AideaMini R3 Max迷你主机将至，独立Oculink接口

PChome4月17日消息，希未即将推出旗舰迷你主机AideaMini R3 Max，搭载AMD锐龙AI 9 HX470处理器，以55TOPS NPU算力、双PCIe 4.0硬盘位、独立Oculink接口为核心优势，定位高性能便携AI工作站，兼顾专业算力与移动便携性。

标签： AideaMiniR3Max| 希未| SEAVIV| 迷你主机| 2026-04-17
AOC 25G51F显示器开售，1080P、180Hz高刷，售价仅529元

PChome4月18日消息，AOC 25G51F显示器已于今日正式开售，定位入门级电竞市场，主打24.5英寸1080P分辨率、180Hz高刷新率，售价仅529元，亲民易入手，目前可在京东平台购买，适合预算有限的入门电竞玩家选择。

标签： AOC| 25G51F| 显示器| 2026-04-18
3月中国电视市场出货下降12.1% 一级能效产品有明显增长

2026年3月，中国电视市场的品牌整机出货量为226.0万台，较去年同期3月下降12.1%，下跌幅度与1月相当。

标签：电视| 海信| TCL| 创维| 2026-04-19