许多年以前,我用一台闲置的486DX2型台式机加上Linux操作系统安装了一部网络服务器。那次试验是为了测试Linux,也是为了运行一些非常简单的通过拨号连接互联网的HTML语言。事实上,那套系统运行得非常好,简直太完美了。我们可以将这套系统作为一种范例进行推广,它可以作为小企业的邮件服务器与网络服务器。当那台机器最终不能工作时,我打开机箱,发现CPU的小风扇脱落,而处理器处于"裸露"运行状态(上面落满的灰尘表明这种状况已经持续很长一段时间了)。任何人都会觉得,对于目前的服务器来说,当散热量超过我的那台小型网络服务器的10倍时,风扇故障是不可忍受的。这种情况下,散热已经成为一个主要问题了。
烧钱:机器的电源与散热
当供应商都关注于更快的处理器与更密集的系统时,电源与散热就成为高性能计算机市场的主要问题。对系统设计者来说,最首要的规则是,每增加10摄氏度的散热就降低了50%的硬件设备可靠度。对于目前的服务器,可靠度依赖于如何更好地利用空气散热(目前我正在尝试避免使用液体降温的方法)。热电学告诉我们,在一个密闭的系统中只能使用降温装置,而降温装置需要电源并且也会发热(风扇发动机温度升高)。这种情况产生了一种螺旋形上升的效应:为了更好地降温需要更多的电源,这会使发热更严重,如此循环加剧。换句话说,散热限定的依据是,在一个狭小的空间里能装入多少发热装置。
空转散热是另一个经常被忽略的问题。在以前,负载系统的耗电与空转系统有很大差别。现在情况不是这样,空转系统消耗的电能与满负荷的系统相差无几。假设一组电源工作量是最高限额的75%(换言之,25%的部件没有使用),因此25%的耗电和散热在空转循环中被浪费掉。从本质上说,机器在烧钱(不涉及对生态环境的影响)。
减少耗能等于省钱
减少机器的散热量将有助于降低整体成本,从而减少浪费钱。机器有两个主要的发热来源,电源和处理器。电源往往是被忽略的部件。通常的电源大约有65%的能效,这意味着,35%的电能输入电源,而作为热量被散发掉--这不是一个开放式的散热器而是密闭的。电源的散热量确实很大。好在,新的高效能电源上市了(查看80 Plus标志),其能效达到80%以上(能效取决于负载)。由于散热量减少,降温装置减少,电源总量减少,因此我们的成本可以有一点螺旋式下降,还可以增加系统的密集度。
在服务器中处理器是另一个重要的散热来源。最近,Intel处理器维持80-120的耗电量,同时允许已有部件使用新的处理器,而无需对电源和降温装置进行升级。上面已经提到,一台空转的服务器会产生与满负荷系统几乎相当的热量。需要有一种解决方案可以让机器关掉不用的电源部件。这当然是一种可选方案,但还在研究一种更好的解决方案。
最新的Intel处理器可以处于节能的待机电源管理状态(C-states),通过使系统的某些部件空转而让处理器大大降低能耗。方法是让Linux内核(和驱动程序)减少检查程序的数量,检查程序的作用是检测是否有工作要做。最新的Linux内核可以运行在所谓的"无用空转"状态中,因此电源深度关闭状态可以持续更久。
Intel甚至还开发出一种名为PowerTOP的工具,用于监控是什么事件将处理器从节能模式中激活。可能会发生这种情况,空转的电源组件只输出少量电源,当调度程序发出一个任务给该电源组件,它将迅速加大输出电源。这种方法将为没有使用100%功能的机器直接节省成本。
这些创新方法可以为计算机行业创造大量的收益。首先,性能更优的电源将减少整体的散热量并降低散热成本。(注意:其他方法例如,让服务器使用直流母线[DC rail]而不是交流母线[AC]也会有更高的电源能效)。其次,保持适当的和可预测的处理器供电量,有利于更好的调配电源并减少与散热相关的问题。最后,空转节能模式可以为许多机器大大降低能耗与散热成本。
网友评论