计算机设备冗余电源使用风险分析
国家外汇管理局信息中心 刘波
摘要:通过一个实例分析计算机设备使用冗余电源的风险。
关键词:计算机设备、冗余电源、风险
目前,数据安全性和系统稳定性的要求越来越高,因此服务器电源要具有很高的可靠性。高端计算机设备多采用冗余电源技术,它具有均流、故障切换等功能,可以有效避免电源故障对系统的影响,实现连续运行,提高了设备的安全特性,但在实际使用中也存在着一定的风险。
1 一个电源故障模拟试验的实例
在建设某大型实时应用系统过程中,为了对硬件设备的可用性进行检测,我们在2007年7月进行了一次计算机设备电源故障模拟的试验。我们选择了6台试验设备,这些设备都是目前国内主流产品,具有一定的代表性。其中5台设备成功进行了冗余电源的切换,有1台设备电源切换失败,设备断电重新启动。具体试验过程如下:
1 供电系统描述
设备所在机房的供电系统由2路变电线路输入,混合后进入4台APC秀康120KWUPS,每2台UPS采用“1+1”并联冗余连接作为1路供电输出,共2路输出。输出线路经配电柜后,为机房所有设备供电。该系统的设备使用2路的A相电源供电,连接方式见图1:
图1: 设备用电环境示意图
下表列出了对设备用电情况有较大影响的供电环境参数:
表1 供电环境参数
参数名称 | 值 | 说明 | |
配电柜电流数据 | 第1路电流A相 | 90.6A | 三相负载较均衡; 中线电流较大。 |
B相 | 102.5A | ||
C相 | 88.8A | ||
中线电流 | 32A | ||
第2路电流A相 | 83.4A | ||
B相 | 76.5A | ||
C相 | 88.7A | ||
中线电流 | 42A | ||
零地电压 | 第1路 | 1.7V | 零地电压稍微偏高。 |
第2路 | 1.5V |
2 设备用电情况测量
该系统共有2类6台设备,如表2所列:
表2系统设备一览表
设备种类 | 设备描述 | 电源系统 | 说明 |
小型机 | IBM某型号小型机 | 2路负载均衡冗余电源 | 小型机A、B配8颗CPU、共2个扩展柜;小型机C配16颗CPU,共4个扩展柜。 |
PC服务器 | IBM某型号PC服务器1台,联想某型号PC服务器2台 | 2路负载均衡冗余电源 | 3台PC都配4颗CPU,但品牌型号不同。 |
在电源故障试验前,设备正常运行时的用电数据实测值为:
表3 系统设备用电实测数据
设备种类 | 电流实测值(A) | 功率值 (KW) (这里功率因数取值为1) | 说明 |
小型机A | 第一路 2.60A | 1.18KW | 配置不同,实际工作功率也不同。 |
第二路 2.76A | |||
小型机B | 第一路 2.64A | 1.14KW | |
第二路 2.56A | |||
小型机C | 第一路 6.50A | 2.75KW | |
第二路 6.00A | |||
PC服务器A | 第一路 0.63A | 0.26KW | 品牌型号不同,实际工作功率也不同。 |
第二路 0.59A | |||
PC服务器B | 第一路 0.91A | 0.39KW | |
第二路 0.90A | |||
PC服务器C | 第一路 1.10A | 0.47KW | |
第二路 1.04A |
3 设备电源故障模拟试验
我们采用以下步骤模拟设备电源故障:
Ø系统备份:为了保障设备和系统安全,在试验前做了数据、应用和操作系统的备份,准备故障恢复时使用。
Ø故障模拟:在配电柜中切断第1路A相电源开关,模拟1路电源突然缺失,试验设备被迫进行电源切换。小型机B、C和3台PC服务器正常完成切换动作,第2路电源承担了设备所需全部电力供应的功能,系统连续运行,没有出现中断。单路供电情况下的用电数据实测值为:
表4 但电源供电实测数据
设备种类 | 电流实测值(A) | 功率值 (KW) (这里功率因数取值为1) | 说明 |
小型机A | 第一路 0A | 1.12KW | 配置不同,实际工作功率也不同。 |
第二路 5.1A | |||
小型机B | 第一路 0A | 1.08KW | |
第二路 4.89A | |||
小型机C | 第一路 0A | 2.61KW | |
第二路 11.88A | |||
PC服务器A | 第一路 0A | 0.24KW | 品牌型号不同,实际工作功率也不同。 |
第二路 1.09A | |||
PC服务器B | 第一路 0A | 0.37KW | |
第二路 1.670A | |||
PC服务器C | 第一路 0A | 0.40KW | |
第二路 1.84A |
Ø故障发现:小型机A在第1路电源断电瞬间,LCD面板显示“power fault”信息,并随即进行了自检重启,电源切换失败。设备重启后,检查系统日志发现,系统记录了电源错误故障信息,无其他相关错误。删除该错误信息后,系统完全恢复,这次系统断电动作没有引起硬件设备和软件系统的损坏。
4 设备的恢复
恢复小型机A运行后,重新闭合第1路A路电源开关,所有设备正常切换到两路电源均衡负载状态,没有出现设备宕机或重新启动的情况。恢复后的设备用电情况类似于表3的数据。
2 冗余电源的工作方法和分类
根据冗余电源的设计目标和功能实现,可分为主备式和负载均衡式两种。
1 主备式冗余电源。
该类电源具有故障切换热拔插功能。在设备正常工作时,由1路电源系统提供所需全部电能,成为主电源;其他电源系统处于待机状态,只耗用少量电能维持其自身工作耗能,成为备用电源。常用的模式有一主一备、一主两备或一主多备。当主电源系统发成故障时,备用电源系统中的1个自动接替故障电源系统提供电能,在不关机的情况下,可抽出故障电源系统进行检修或更换。整个过程不影响设备的运行(至少理论上如此),从而提高了设备可用性,保障了业务连续性。如果多个电源系统同时发生故障,设备将宕机,当然这种概率比单个电源系统发生故障的概率要小得多。
图2 一款备用式冗余电源设备图列
表5 一款备用式冗余电源设备用电实测数据
设备描述 | 电流实测值(A) | 功率值 (KW) (这里功率因数取值为1) | 说明 |
联想某款PC服务器 | 第一路 5.8A | 1.2 KW | 此设备有3个电源,1主2备。 |
第二路 0.3A | 0.07KW | ||
合计 | 6.1A | 约1.3 KW |
2 负载均衡式冗余电源
该类电源除备用式电源功能外,还具有负载均衡功能。在设备正常工作时,所有电源系统共同提供电能,平均负担载荷,表现为各电源系统的电流和功率值相近。在其中1路电源出现故障后,由其他电源系统平均负担其工作,可在设备运行中对故障电源系统进行检修或更换。
图3 一款负载均衡式冗余电源设备图例
表6 一款负载均衡式冗余电源设备用电实测数据
设备描述 | 电流实测值(A) | 功率值(KW) (这里功率因数取值为1) | 说明 | |
EMC某款大型磁盘阵列 | 第一路 | A 3.3A | 4.1KW | 该设备使用2路3相电源供电,采用负载均衡冗余电源。电源使用耦合插座。 |
B 2.8A | ||||
C 2.9A | ||||
第二路 | A 3.0A | |||
B 3.4A | ||||
C 3.3A |
3 冗余电源使用中的风险分析
冗余电源系统虽然能够提高设备的可用性,从而提高业务连续性。但在实际工作中,存在着较大的风险,通过本文第一部分的实例可以说明。在某1路电源系统发生故障时,按照冗余电源的工作原理和设计目标,本应由其他电源系统接管供电功能,但在接管过程中,也会发生意外断电而引起设备宕机的现象。一般来说,绝大多数计算机设备(服务器、交换机、路由器、网关、磁盘阵列等)允许瞬间供电中断时间为0.01~0.02秒左右,若供电电源出现瞬间供电中断(>0.02秒的瞬间停电),故障就会导致设备宕机或“开机自检”。对于此种现象,我们和多家设备制造商进行了讨论,也请教了机房和计算机设备用电方面的专家。经过分析,我们认为风险存在的原因大致分为以下2种:
5 设备方面的原因
各种提供冗余电源系统的设备在说明书中一般都会明确冗余电源系统的功能——提供电源切换或电源负载均衡的功能,能够完成电源设备故障的不停机处理。经与多家国内外计算机设备制造商研讨,制造商提供的解释是设备具备冗余电源的功能,但不能保证在故障时电源系统能够正常完成切换动作,保证设备连续运行。因此要求用户提供可靠的电源工作环境。
6 用电环境方面的原因
机房和计算机设备用电情况负载非常复杂,影响设备正常运行的因素较多,特别是用电环境中用电负载配平、零地电压水平、电源系统高次谐波等影响供电质量的因素。在计算机设备冗余电源系统发生故障或切换的过程中,以上因素的负面作用有可能放大,进而影响设备的稳定运行,甚至出现设备宕机或重新启动的情况。
4 实际使用中应注意的几点
根据以上分析,我们在日常设备运行维护中应注意以下几点:
1 关注设备用电情况,总结设备用电特点。
在日常运行中,对设备的用电情况进行观测和记录,统计出重点设备的用电规律和峰谷平指标,能够及时发现设备用电异常波动的情况,进行有效的处理。
2 规划设备用电,提高电源环境质量。
通过电力负载配平、有效治理和降低零地电压、高次谐波干扰等因素的负面影响,提高供电质量。应注意设备标称的额定功率要远大于设备的实际使用功率,在用电规划时要合理制定功率分配方案,既不要出现设计容量远大于实际负荷的情况,也不要出现冗余不足而设备瞬间功率较大导致的断电事故。
3 做好供电系统运行维护计划,尽量避免设备电源的被动切换。
在机房和设备维护中,经常要对供电系统进行维护,如UPS设备的检查维护可能需要切断UPS输出,从而引起设备电源切换,这种切换从某种意义上讲是被动的,是具有一定风险的,我们应该尽量避免。如不能避免,应做好备份和恢复准备工作。
4 设备运行维护及时有效,降低设备故障风险。
在运行维护中,不能存在麻痹大意的思想,做好物理巡检和系统日志检查,及早发现设备故障隐患。
5 制定有效的应急预案,防范和化解风险。
应制定详尽的备份方案和应急处理预案,定期检查备份数据的有效性,定期进行应急演练。
参考文献:
1 王力坚 关于供电线路中零地电压的形成、危害与控制 UPS应用,2006,11
2 吴阿明 UPS系统配置方式及采用双母线供电方案建议