随着45nm制造工艺的Intel Penryn处理器的发布(包括双核心桌面处理器Wolfdale、四核心桌面处理器Yorkfield、双核心移动处理器Penryn等家族成员),一个新的名词又频繁地出现在我们眼前,这就是SSE4(Streaming SIMD Extensions,流指令扩展指令集),或者更准确的说法SSE4.1。
工作:多拉才能快跑
说穿了,MMX和后来的SSE都是SIMD指令的一种,即在一个CPU指令周期内用一个指令完成处理多个数据的操作。也许这样你会觉得抽象,SSE具体如何工作,我们举一个实例说明。
下面我们有一个五行四列的浮点数数组中,要计算其中每一个元素的平方根。如果CPU不支持SSE指令,实现这个任务的代码只能这样写:
for each f in array
{
把f从内存加载到寄存器
计算平方根
再把计算结果从寄存器中取出放入内存
}
如果CPU支持SSE指令,一次就可以读取数组中每一行的4个元素加以处理。采用SSE技术后,算法可以写成下面的样子:
for each? members in array //对数组中的每个元素
{
把数组中的5行数字加载到SSE寄存器中
在一个CPU指令执行周期中完成计算其中每行的4个数的平方根的操作
把所得的结果取出写入内存
}
前一种算法,CPU需要计算20次才能得出结果,而采用SSE指令后,只需要计算5次就可得出全部结果,不难看出SSE指令可以节省大量计算时间。
SIMD的精髓是从一次处理一个变成一次处理一组 |
网友评论