1. 概述
近年来随着云计算技术的快速发展,全球数据中心开始向着巨型化的方向发展,单机柜功率密度不断提高,5KW、7KW、10KW甚至几十KW功率机柜已逐步成为常规配置。新一代数据中心更显著的表现为:规模更大、密度更高、制冷要求更高、局部过热成为常态等特点。数据机房的高功率密度化对空调系统的制冷及机房散热提出了更高的要求,空调系统短时间的供冷中断都会造成IT设备过热宕机,传统风冷空调的制冷方式已无法满足机房制冷需求。如何保障新一代数据中心空调系统的能够长期、持续、稳定的为数据中心机房提供所需的环境温度、湿度成为每个数据中心运维管理人员必须面临的问题,而空调系统的供电方式对上述保障要求能否达到起着关键作用。
从国内数据中心的发展来看,由于功率密度的提高,新一代数据中心尤其是大型数据中心基本采用制冷效率更高的水冷空调系统来满足持续上升的制冷需求。本文中笔者主要结合自身工作经验主要针对水冷空调系统的供电方案设计及一些常见问题进行分析和探讨。
2. 新一代数据中心与传统数据中心的差异
传统数据中心一般功率密度较低,多数单机柜功耗低于2KW,在空调系统故障停止供冷时,只要保持IT设备供电连续,通过增加风机、开窗等手段仍可保持数据中心连续不中断运行,因此在传统数据中心的运维管理中空调系统的重要性往往不像供电那样受到重视。新一代数据中心对运维管理的重点进行了重新定义,空调系统与数据中心供电一样决定着数据中心能否安全稳定运行。笔者在工作中按照ASHARE标准测试方法,利用假负载对模拟了一个设计功耗5KW/机柜机房失去空调制冷后机房温度上升情况。试验选择一个350平米机房内,机房内安装机柜158个。测试前启动假负载和空调,使机房温度达到数据机房正常运行稳定状态。关闭机房两侧末端空调模拟空调失去供冷。空调制冷系统停止运行后,靠机房空间的冷量只能维持不到3分钟。
由此可见随着IT设备功率密度的不断提升,数据机房允许的空调停止运行时间已成为分钟级,在此条件下通过运维人员“现场维修”来排除空调系统故障恢复机房制冷已不再可能。空调系统短时间停止运行都会造成机房内热量的快速堆积,并引发设备高温宕机,因此保障空调系统安全稳定运行的供电系统的重要性也进一步凸显。
3. 高功率密度数据中心水冷空调系统的供电设计注意事项
新一代数据中心典型的空调水冷系统的结构基本都是由下属三大部分组成:
(1) 由冷却塔+冷却水泵+冷却水供水及回水管路组成的空调冷却水系统;
(2) 由冷水机组+冷冻水泵+冷冻水供水、回水管路组成的空调冷冻水系统;
(3) 由分水器+末端空调+风机盘管+集水器+冷冻水泵组成的空调制冷量分配系统。
同时为保证冷冻水供水和冷却水供水系统均能可靠、稳定运行,设计中将冷水机组、冷冻水泵、冷却水泵分水器、集水器、主管路等都设计成1+1冗余备份方式。尽管空调系统的设计中采用了冗余等多重保障措施,但若空调系统供电设计中一些缺陷仍然离不开一个高可靠的供电系统来保证空调系统可以持续稳定的为数据机房提供制冷。
3.1水冷空调系统供电方案的常规设计
水冷空调系统供电设计中冷冻水泵、冷却水泵、末端空调等关键设备一般采用双路市电+ATS开关的冗余型供电方案:
对于采用低压油机作为后备电源的数据中心,空调系统一般设计为有油机保障的双路市电输入+ATS开关,正常运行时两路市电首先馈送至ATS开关,并可以选择其中一路作为主用,另一路作为备用。正常运行时由作为主用的一路向水泵、末端空调等设备供电,当主用路故障是可以自动切换至备用路工作。ATS开关的转换可以在秒级时间内完成,秒级的中断完全满足空调系统停止运行时间要求。
对于采用高压油机作为后备电源的数据中心,由于目前一些地区的电力主管部门往往会对高压油机的自动投切进行限制,人工投切会延长高压油机供电恢复时长,因此多数空调系统供电设计中会为末端空调和冷冻水泵配置UPS、EPS等不间断电源保证在高压油机投切器件的连续供冷。
3.2水冷空调系统供电方案设计中应避免“单点故障”
在上述两种常规设计中均采用ATS作为实现双路供电自动切换的关键器件,可满足一般但从ATS实际应用效果看ATS仍然存在一定的故障率导致该动作不动作或误动作等。ATS承载下端所有水泵或末端空调的负荷,存在明显单点故障,ATS故障将导致下端所有设备断电。对于高功率密度的数据机房,ATS故障可造成末端空调停止供冷机房温度快速上升或冷冻水泵停转末端空调无冷量补充进而造成机房高温宕机风险。为避免将所有鸡蛋放在一个篮子中的风险,为末端空调配电系统增加一个ATS开关,将相互间隔的空调分属不同配电系统,提高高功率密度数据机房安全性。
3.3水冷空调系统供电方案设计中应考虑“连续制冷”
由于高功率密度数据机房在空调失去制冷条件下机房温度累积非常迅速,空调设备短时间停止供冷就可造成IT设备高温宕机。因此在进行新一代数据中心的规划设计时应充分考虑到连续制冷的必要性。一种观点认为,在数据中心设计阶段进行负荷评估时往往大于后期实际装机的负荷,因此认为过度强调连续制冷一方面会造成空调系统配电设备投资的加大,另一方面还可能造成后期设备利用率低等问题。但按照IT技术的发展趋势,每5年左右功率密度会有一次技术更新,而数据中心一般设计生命周期一般不低于30年,因此在数据中心的规划设计阶段必须考虑到后期扩容和技术更新。
数据中心连续制冷的完整解决方案不仅包括空调末端、冷冻水泵的不间断运行,还应设置蓄冷罐储备一定的冷冻水用于冷水机组停止工作时可以通过蓄冷罐向空调水系统补充冷水。为空调末端和冷冻水泵均配置UPS保持数据机房的末端空调在市电停电、高压油机恢复供电前机房内空气继续循环流动,转将冷冻水管路中冷冻水继续被输送至空调末端机房提供冷量,储存在蓄冷罐内的冷冻水补充到管路中为冷冻水管路中继续补充冷量以满足连续制冷需求。
解决空调系统连续制冷需增加蓄冷罐、UPS、蓄电池组及管路等,这些会增加数据中心建设初期的投资,但会是数据中心后期业务发展的适应性大大增强。一旦建设初期未设计待后期再行优化改造不仅增加带业务改造的风险而且会造成投资进一步加大。目前部分新建数据中心出现的因前期未考虑连续制冷投产后不满足制冷需求而不得不进行改造的案例很值得思考,上述情况的出现一方面因设计初期对功率密度的增长缺乏长期考虑,另一方面对高功率密度机房失去制冷情况下的温升情况缺乏全面认识。
3.4水冷空调系统供电方案设计中应考虑启动冲击电流
对于冷冻水型空调系统,末端空调的主要耗电为风机。风机主要为感性负载,在电流突变时一般认为会产生较大的冲击电流,尤其从静止状态突然启动,这一点在传统AC风机上表现更为突出;冷冻水泵则是典型的感性负载突加负载时冲击电流更大,通常会达到额定负载的6、7倍。基于上述原因,通常认为如果给末端空调和水泵配置不间断电源(UPS或EPS时)必须要考虑冲击电流的容量。但从实际应用看,当末端空调或水泵的市电供电中断时UPS蓄电池会立即通过逆变器承担负荷,此时风机或电机仍在高速旋转,其冲击电流与从静止状态突然加载时完全不同的。末端空调风机一般功率较小,因此普通UPS完全可以作为备用电源,对于水泵类负荷,应负荷较大可选用抗冲击能力更大的EPS更为合适。
3.5尽可能设置独立的加湿器为机房加湿
在新一代数据中心冷水型空调系统的末端空调选型时,部分数据中心选择带加湿加热功能的末端空调,但从笔者多年运维经验建议尽可能将机房制冷和加湿分开处理。众所周知,空气湿度会随着温度的变化而变化,尤其对于装机过程中的数据机房由于机房安装的机柜位置、单机柜发热量等不同必然会造成不同位置温度、湿度不同。制冷、加湿、加热一体的末端空调为了达到设定的温湿度值难以避免出现加热与制冷打架、加湿与初始打架现象,大大增加了运行功耗。
采用专用加湿机,例如在机房安装专用的水膜加湿机,不仅能耗大大降低而且可以有效避免上述打架现象,降低机房制冷整体能耗。
4. 小结
上述为笔者对日常运维管理工作的一些小的总结,若有不当之处欢迎与同道中朋友相互交流提高。数据中心的运维管理是一个复杂的体系,随着功率密度的不断提高将面临越来越多的问题需要面对和解决,新一代数据中心的运维管理必将为各位运维管理人员开启一片新的天地。