数据中心机房供电保障设备中,UPS、HVDC、发电机组等设备均在不同等级的机房广泛应用;UPS、HVDC电源系统因常年处于运行状态,会出现一些故障;而在线式UPS电源因设计电路合理,驱动功率元件容量所取的余量较大,相对来说电源电路故障率较低,而由电池引起的故障率较高。正确的使用和维护好UPS电池的寿命是降低不间断电源故障率的关键因素。同时还要防范因UPS内部控制(接线、软件等)系统引起的异常停机事故!
下面是一个UPS因控制系统异常导致的停机事件,分享一下,希望引起各位运维同行的重视。
故障现象:
电力监控系统突然报出多条告警信息:UPS异常、UPS输出屏失电(电压、电流同时归0)、机房N个列头柜失电、UPS系统BCB电池开关跳位等;
现场状况:
值班人员立即到场检查报警UPS,现场状态如下:
1、现场UPS输入柜主路、旁路电源开关状态无异常;
2、输出柜各开关处于合闸位置,输出柜失电;
3、输出柜各开关对应机房列头柜失电;
4、报警UPS对应蓄电池组开关处于跳闸位置;重合无法合闸;
5、UPS本体各状态指示灯熄灭,报警灯常亮,同时伴有报警声;
应急措施:
1、立即对UPS电源各开关状态及电量各参数进行检查,电源柜三相电源电压无异常,主路、旁路开关均处于合闸位置,电流为0;将UPS输出屏主进开关分闸;
2、按UPS本体故障清除键按钮;
3、将UPS输入主、旁路断路器分闸,静待30秒后恢复合闸;此时UPS自动转为旁路运行状态;
4、将UPS运行状态由旁路供电模式转换为正常整流逆变模式;检查UPS输出各项电量参数无异常;此时再将电池组开关由跳位分闸到分位,然后重新进行合闸,开关恢复正常合闸位置;
5、将UPS输出屏各开关恢复合闸位置,机房失电列头柜恢复供电;
6、通知UPS厂家人员到场对故障设备进行检查,排除故障隐患;
故障原因排查:
UPS厂家维护工程师到达现场,对UPS内部数据导出检查;发现在本UPS故障时,UPS本机发出了紧急停机指令,导致UPS停机。随后对UPS本体仔细检查,发现EPO连线插头未插实!无其他异常现象。
结合现场实际情况:
1、UPS电源柜主、旁路开关状态正常,输出中断,BCB电池组开关跳闸,无法手动恢复合闸状态;
2、UPS设备本体主、旁路输入回路锁死;
3、UPS设备市电输入主、旁路分(UPS本体断电)合闸后,UPS自动恢复旁路运行模式;
4、手动启动逆变器,UPS切换至主路逆变供电状态;
5、合BCB电池开关操作成功。
以上现象符合EPO动作后紧急停机特征,故本次故障可判定为UPS因内部错误指令导致停机故障。
后续改进措施:
UPS是设备是供电可靠性的最后一道保障,为保障数据中心供电安全可靠,维护团队举一反三,防止类似问题再次发生。
立即对所有UPS运行安全隐患进行检查:全面检查UPS运行环境,检查风扇运行情况,确保UPS散热条件满足要求;检查UPS电池运行状态,确保电池具有后备保障能力;检查各UPS的内部EPO接线情况,防止类似故障再次发生。