万亿级计算相关技术
万亿级计算相关技术
《一款采用45纳米CMOS制程、注入闭锁的27Gb/s转发时钟I/O接收器》
“A 27Gb/s Forwarded-Clock I/O Receiver Using an Injection-Locked LC-DCO in 45nm CMOS”
万亿级计算(Tera-scale)技术是英特尔对未来平台的一种愿景,其中几十个到几百个处理器核心共享与存储器、其它CPU插槽和外设的连接。为支持新兴的数据密集型应用,I/O带宽必需扩展到超过100Gbps,这意味着每个通道必需超过10Gbps。提升I/O通道速度要求精确的时钟来为传输和接收数据计时,这会消耗大量功率,从而需要更大的空间来容纳过滤元件以及复杂的电路用于减轻噪音干扰。
一款采用新型技术的45纳米试验芯片利用转发时钟信号(通过和数据不同的通道传输的时钟)为接收器的数据计时,且只需要更少、更简单的电路。它省去了大型过滤元件,但却能过滤高频时钟抖动(时序噪音)。从技术角度,英特尔显示,只有PLL的VCO部分(而不是全部)才是真正必要的,并且依靠这一更为简单的电路在提高性能的同时节省了能源。这款试验芯片的测试结果显示:
·可实现极高的电气速度——实现每链接高达27Gb/s的数据链路。
·20Gb/s速率上所有I/O接收器中最佳的能效:1.6mW/Gb/s。
《为提高动态变化承受能力,高能效、具有免疫亚稳定状态的时序错误检测功能的,基于指令重放的恢复电路》
“Energy-Efficient and Metastability-Immune Timing-Error Detection and Instruction-Replay-Based Recovery Circuits for Dynamic-Variation Tolerance”
为实现万亿级计算级的性能,处理器必须极其高效,并且能最大限度地提高其性能功率比。由于目前的处理器架构无法容许任何电路级时序错误,处理器的性能和能源效率受到极大制约。尽管这种错误可能只是暂时的并且十分罕见,为确保处理器正确运行,最大速度必需被降低,最低电压也必需被提高到被称为“防护带(guard band)”的范围内。
英特尔的研究人员展示了一款测试芯片,它配备的弹性电路(resilient circuit)可检测并纠正时序错误,因而无须“防护带”。该芯片的测试结果显示,这是迄今为止公布的能耗最低、最快的错误检测时序电路。这些技术可为未来的处理器带来类似的好处。该测试芯片表明这些电路可实现:
·通过对芯片进行“超频”,使性能提高达32%(电压保持不变)。
·通过降低电压,使能耗降低达33%(性能保持不变)。
·(或者)通过同时改变二者的设置,同时提高性能并降低能耗。
《一款基于65纳米CMOS制程的320mV 56μW 411GOPS/W超低电压运动测定加速器》
“A 320mV 56μW 411GOPS/W Ultra-Low Voltage Motion Estimation Accelerator in 65nm CMOS”
为了向高性能和超便携式应用提供最佳性能功率比,未来芯片的部分晶体管可能专门用于加速诸如高清视频处理等常用的任务。这种加速器是针对特定任务的,但却能将性能功率比提高5至10倍。大多数视频压缩技术的一个重要组成部分是“运动测定”,用于识别同样的物体在不同画面中移动的冗余图像。此任务占用了视频压缩60%至80%的处理工作量。加速该任务将使得在小型设备上的高清视频压缩成为可能,在大型设备上则速度更快。
英特尔的研究人员展示了一款视频运动测定加速器,其性能有多方面的提高,且能在超低电压下运行,这是大多数电路通常不能实现的。这种加速器的阵列能实现移动设备的超低电压视频编码。该测试芯片表现出:
·相比已公布的最好加速器最高达10倍的吞吐率(运行3步搜索算法)。
·能调节电压和性能,以针对当前任务最大限度地提高能源效率。
·可在通常最低电压以下(即低于阈值)运行,最低可达0.22 V。
·0.3V的超低电压实现了10倍的能源效率(411GOPS/W)。
《带宽可达128GB/s、采用65纳米逻辑制程的2GHz 2Mb 2T增益单元内存宏》
“2GHz 2Mb 2T Gain-Cell Memory Macro with 128GB/s Bandwidth in a 65nm Logic Process”
对未来万亿级计算应用的分析表明,在多个内核上运行多线程应用会大幅度提高对内存带宽的需求。片上SRAM速度很高,但从对于芯片面积需求角度讲代价过于昂贵。被用作“主内存”的DRAM密度要高得多,但速度较慢。而且由于不同的制造程序,它不能在微处理器片上集成。但可通过3-D堆叠方式与处理器紧密结合,但即便如此也无法接近片上存储的速度。
本文介绍了一种能用标准的微处理器工艺制造的新型集成DRAM内存。这为芯片设计师获得更快的片上内存并提高未来应用的性能提供了新的选择。该内存就像其他动态内存一样需要定期“刷新”,但它从而能够提供:
·相当于片上SRAM两倍的内存密度。
·比DRAM快得多的速度:2GHz频率时高达128GB/s。

网友评论