Intel架构日探秘:12代酷睿P+E大小核细节解析

PChome | 编辑: 单亚凯 2021-08-24 17:11:47原创

代号为Alder Lake的英特尔第十二代酷睿基于 Intel 7制程(10nm SuperFin)工艺打造而成,是英特尔的首款性能混合架构(Intel Hybrid Technology),它首次集成了两种内核类型:性能核(Performance Core)和能效核(Efficiency Core),以带来跨越所有工作负载类型的显著性能提升。

在2021年英特尔架构日上,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri携手多位英特尔架构师,全面介绍了两种全新x86内核架构的详情;英特尔首个性能混合架构,代号“Alder Lake”,以及智能的英特尔硬件线程调度器;专为数据中心设计的下一代英特尔至强可扩展处理器Sapphire Rapids;基础设施处理器(IPU);即将推出的显卡架构,包括Xe HPG微架构和Xe HPC微架构,以及Alchemist SoC, Ponte Vecchio SoC。

这些新架构将为即将推出的高性能产品注入动力,并为英特尔的下一个创新时代奠定基础,以满足世界对高计算能力日益增长的需求。

Raja Koduri强调了架构提升对于满足这一需求的重要性:“架构是硬件和软件的‘炼金术’。它将特定计算引擎所需的先进的晶体管结合在一起,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,并在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,同时确保所有软件无缝加速。随着桌面到数据中心的工作负载变得前所未有的密集、复杂、且多样,今年公布的这些新突破也展示了架构将如何满足对于更高计算性能的迫切需求。”

作为普通消费者最为关心的产品,英特尔在此次架构日活动上终于公布了一些代号为“Alder Lake”的英特尔下一代客户端SoC的细节,也就是即将于今年秋季正式发布的第十二代酷睿桌面处理器。

Alder Lake基于 Intel 7制程(10nm SuperFin)工艺打造而成,是英特尔的首款性能混合架构(Intel Hybrid Technology),它首次集成了两种内核类型:性能核(Performance Core)和能效核(Efficiency Core),以带来跨越所有工作负载类型的显著性能提升。

Alder Lake将提供惊人的性能,支持从超便携式笔记本,到发烧级,到商用台式机的所有客户端设备,它采用了单一、高度可扩展的SoC架构,提供三类产品设计形态。

·高性能、双芯片、插座式的台式机处理器,采用LGA1700独立封装,隶属于S系列,最多8大8小16核心24线程,核显最高32EU单元,功耗最高125W;

·用于高性能笔记本的移动低功耗版处理器,采用BGA封装,最多6大8小14核心20线程,并加入Xe显卡和Thunderbolt 4连接,功耗12-35W;

·用于轻薄、超低功耗的笔记本处理器,采用BGA Type4高密度封装,配置优化的I/O和电能传输,最多2大8小10核心12线程,核显最高96EU单元,功耗低至9W。

早前,我们在各种传闻消息中已经知道了第十二代酷睿将采用“大小核”的混合架构,这次Intel带来了关于性能核心(P-Core)和能效核心(E-Core)的详细解读。

全新的英特尔能效核是一个高度可扩展的x86微架构,曾用代号“Gracemont”,可以满足客户从低功耗移动应用到多核微服务的全方位计算需求。

此高能效x86微架构在有限的硅片空间实现多核任务负载,并具备宽泛的频率范围。该架构致力通过低电压能效核降低整体功率消耗,为更高频率运行提供功率热空间。这也让能效核提升性能,以满足更多动态任务负载。

相比英特尔最多产的CPU内核Skylake,在单线程性能下,能效核能够在相同功耗下实现40%的性能提升,或在功耗不到40%的情况下提供同等性能。与运行四个线程的两个Skylake内核相比,四个能效核所提供的吞吐量性能,能够在功耗更低的情况下同时带来80%的性能提升,而在提供相同吞吐量性能时,功耗减少80%。

英特尔全新性能核微架构,曾用代号 “Golden Cove”,旨在提高速度,突破低时延和单线程应用程序性能的限制。全新性能核微架构拥有更宽、更深、更智能的架构:带来了显著增速同时更好地支持代码体积较大的应用程序。

•更宽:解码器由4个增至6个,6µop 缓存增至8µop,分配由5路增至6路,执行端口由10个增至12个

•更深:更大的物理寄存器文件(physical register files),拥有512条目的重排序缓冲区

•更智能:提高了分支预测准确度,降低了有效的一级时延,优化了二级的全写入预测带宽

性能核是英特尔有史以来构建的性能最高的CPU内核,并通过以下功能突破了低时延和单线程应用程序性能的极限。相比目前的第11代英特尔酷睿处理器架构(Cypress Cove),在通用性能的ISO频率下,针对大范围的工作负载实现了平均约19%的改进。另外搭载英特尔高级矩形扩展(AMX),内置下一代AI加速提升技术,用于学习推理和训练。AMX包括专用硬件和新指令集架构,以明显提高矩阵乘法运算,减少时延,对大型数据和代码体积较大的应用程序提供更好的支持。

特别的是,为了使性能核和能效核与操作系统无缝协作,英特尔开发了一种改进的调度技术,称之为“英特尔硬件线程调度器”。硬件线程调度器(Intel Thread Director)直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。

硬件线程调度器具有动态性和自适应性——它会根据实时的计算需求调整调度决策——而非一种简单的、基于规则的静态方法。Intel表示该技术可以在最短30微秒的时间里确定一个线程的性质、归属,而传统的系统调度器需要上百甚至几百微秒,还可能分配错误。

传统意义上,操作系统会根据有限的可用数据做出决策,如前台和后台任务。英特尔硬件线程调度器则与操作系统进行合作(已知的有微软),搭配Windows 11的任务调度器,将合适的负载分配给不同核心、线程。

构建如此高度可扩展架构的挑战,还需要在不影响功率的情况下满足计算和 I/O 代理对带宽的超高要求。为此,Intel设计了三种独立的内部总线,每一种都采用基于需求的实时启发式后处理方式。

•内部计算总线可支持高达1000GBps,每个内核或每集群100GBps,通过最后一级缓存将内核和显卡连接到内存

·I/O内部总线支持可高达64 GBps,连接不同类型的I/O和内部设备,能在不干扰设备正常运行的情况下无缝改变速度,选择内部总线速度来匹配所需的数据传输量

·内存结构可提供高达204 GBps的数据,并动态扩展其总线宽度和速度,以支持高带宽、低时延或低功耗的多个操作点

Intel第十二代酷睿桌面版支持DDR5-4800、DDR4-3200、LPDDR5-5200、LPDDR4X-4266内存;支持16条PCIe 5.0、4条PCIe 4.0通道,配套的芯片组(Z690)最多支持12条PCIe 4.0、16条PCIe 3.0通道。

Intel第十二代酷睿桌面版处理器将于今年秋季(预计10月)正式发布。

在显卡方面,Intel也公布了两款即将上市的显卡产品:英特尔锐炫(Intel Arc),基于Xe-HPG微架构、可扩展到发烧友级解决方案的全新游戏独立显卡SoC;Ponte Vecchio,基于Xe-HPC微架构,面向高性能计算和人工智能工作负载。

值得注意的是,Intel Xe显卡产品将首次由代工厂来进行制造(Alchemist GPU基于台积电N6制程),这也是英特尔IDM 2.0战略中的关键一环,即逐步扩大英特尔的代工合作。英特尔表示:“就像我们的设计师为合适的工作负载选用合适的架构一样,我们也会为架构选择最适合的制程节点。目前,为英特尔独立显卡产品采用代工厂的制程节点,是恰当之选,因为建立敏捷、韧性的供应链至关重要。”

技术背景出身的英特尔CEO帕特·基辛格说:“我们面临艰巨的计算挑战,一定要通过变革性的架构和平台来解决……正是英特尔才华横溢的架构师和工程师们,让这些技术‘魔法’得以成真。”

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑