一年一度的春节即将到来。在大家纷纷想着回家的时候,有这样一群人却还在紧张忙碌着。他们就是各大企业的IT运维人员。由于时值传统佳节,各行各业都安排假期,在这举国上下欢欢喜喜过大年之际,往往会给IT行业的管理和运维带来松懈。在这种情况下,我们有必要为大家讲解,在春节假期如何做好IT运维。
有这样一群人:他们经常活跃在办公室倒腾系统、插网线、搬设备、装服务器,每天都在盯着监控屏幕。一旦系统设备出现故障,无论严寒还是酷暑,他们必须第一时间赶到现场。如果处理不当,会对公司带来巨大损失。这群人就是我们今天要讲述的IT运维职场人士。他们背负着巨大的压力,一年365天几乎时时刻刻都需要准备着。
在介绍IT运维与管理之前,首先我们要明确,根据ITSM的解释,IT运维管理主要包括以下两大部分:
1、Helpdesk call center ,呼叫中心管理;主要以值班形式;
2、机房设施和系统管理;现代机房都有软硬件系统告警设备,任何系统异常,都会有邮件、短信、电话等形式第一时间通知维护人员。
因此,在探讨春节期间的IT运维与管理,我们要对其IT系统进行分类逐一分析。不同行业,其IT运维管理在节假日期间的执行要求并不相同。一般来说,在春节期间,春节联欢晚会在线直播、体育赛事、相声小品等多媒体平台,以及团购促销等平台,都会迎来海量的高并发访问量,并对其IT系统和业务支撑带来严峻挑战。这些不同行业的IT服务公司,其IT运维管理的特点也不尽相同。
比如,主要服务内部客户的公司,由于节假日内部客户都休假,IT部门业务量也下降,只需安排call center的值班人员应对突发事件。如果面向外包客户的公司,比如互联网、电商公司,由于节假日业务量反而比平常增加,需要增加人手,并采取轮流值班形式保证正常运行。
正如前文所述,IT系统的运维管理视不同行业而有所不同。对于一般的企业来说,如果它并不对外提供IT服务,而仅仅是日常工作时间,为企业内部员工提供平台支持,企业邮箱也完全外包采用第三方服务的话,他们就无需在春节这个节假日刻意安排人手轮流值班。也就是说对于一般的公司,其网络系统并不重要的话,可以将更多精力放在节后。
对于比较重要的、对外提供服务的IT系统来说,确保7*24正常运行是最基本的要求。在这种情况下,IT运维管理就显得非常重要了。而这,也是我们要介绍的应用服务领域的IT运维管理。
IDC、SDC、NDC等行业公司,由于规模较大,其服务的用户群体和服务内容都比较广,因此,这些企业都安排有专人24小时值班。当然,即使是春节这样的传统佳节,也会有专人值班,以应对突发事件的发生。
然而即便如此,在春节这样的重大节日面前,我们在IT运维管理的时候仍然特别需要注意以下几个问题:
1、硬件设备检修
IDC这类运营商的数据中心,其IT系统都提供有冗余设备(冗余电源、灾备等),可提供在硬件设备宕机的情况下,自动切换并保证系统持久稳定运行的机制。也正是冗余设备的重要性,运维人员在春节这样的节假日,特别需要了解各个硬件设备的现状。
漫画:检查硬件设备(来源:johnshenlee)
这种了解包括两部分:机器本身的可用性和使用周期。如果超出使用周期,需要调配新的机器设备,以满足突发性的高并发访问需求。另外还需要了解冗余设备的可用性。而这种冗余设备的检修往往会被忽视,如果一旦发生异常情况,系统自动切换到冗余设备上而设备发生故障,那么后果也是不堪设想的。
2、保证电源持久供给
“有了电,多方便”。春节期间,家家户户闹新年,往往各大电器都超长时间满负荷运行,从而会给电力的使用带来安全隐患。对于应用服务提供商来说也同样如此,如果电力供给出现故障,那么其他的所有一切工作都白费,而且还会造成难以挽回的巨大财产损失。
对于IDC、SDC等应用来说,在电源方面通常都是采取双备份的机制来确保电源持久供应。有些服务器通常都有四个电源模块,而有些移动运营商甚至配备有UPS直流电源模块房,如果整个大楼停电,可以通过该模块房提供长达一周的用电需求。当然,更有甚者,将数据中心楼宇中的电梯也纳入到UPS供电的体系中,以方便管理员更高效、安全的提供运维、管理工作。
3、职责明确 落实到人
由于这类IT运维管理需要有专人值守,因此,在春节期间应该有职责明确、分工落实到个人的事先安排。通常情况下,这种24小时专人值守,可以采用轮流、现场和远程结合的形式来做出安排。比如,现场值班人员可以安排负责整个机房、数据中心的安全、防护工作,而作为系统监控、常规性故障处理,则可以由远处异地、通过手机、PC终端接入网络进行处理。当然,为了应对严重的突发事件,现场必须配备有专业技术人员。
另外,有些IDC是根据业务区块(数据中心不同的业务区)来分派不同的专业技术人员进行值班监管,在这种情况下,每个运维人员特别需要留意所在的服务器访问情况(包括以往访问记录和高并发访问下的负载分担设备),以便有的放矢做出重点监测。而对于一般的网络设备,由于它们都具有堆叠和级联的功能(将多个交换机整合成单个),在高并发访问的情况下也能确保正常工作。
除了运营服务领域的IT运维管理,其实还有一个重要领域的运维也需要予以重视,也就是通信领域的服务运维与管理。通信领域通常包括运营支撑(类似前面所介绍内容)、核心网、无线网络和传输四大块领域。通常每逢节假日,国家通信网络都会进入一个封网期——也就是节前一周至节后一周的这段时间内,其他工程项目都停止,所有网络都进入安全维护期,以确保高强度通信需求。
和应用服务提供商有点不同的是,设备厂家和通信运营商都在安全维护期安排工程师7*24小时待命,以便支持运营商的维护人员解决故障,如果故障严重,厂家往往都会安排专人前往现场解决故障。
在此次专门针对通信的IT运维管理进行讨论,主要是考虑到新春佳节之际,人们走亲访友,电话量、短信量暴增,会对整个国家网络通信系统、尤其是各个基站带来巨大压力。
移动通信基站
在一般情况下,短信并不会像电话(移动电话)那样,在大年三十的凌晨之际出现“打不通”的困恼。因为短信一般采用的是基于IP的通信原理,不太会出现网络拥堵的情况(但可能会存有延迟)。而电话则是通过基站来建立连接的。基站的呼叫是按照载频来计算,一般每个基站都是2000个载频,每个载频可以带12个电话。也就是说,单个基站其所能承受的是同时支持最多24000个移动电话的呼叫。
在这种情况下,CS领域的IT运维管理应该注意一些什么问题呢?在笔者看来,在春节这样的节假日期间的IT运维管理,CS会比PS相对简单些,毕竟如果出现了话务量过大的情况,可以通过爱尔兰告警(单位时间内呼叫量)在接入层进行限制。除此之外,我们还需要特别注意以下两点:
合理设置 事先防范
不同热点不同城市,其移动电话用户规模也不同。因此,在春节这样的节假日期间,用户群密度不大的地区,其基站载频所带的电话数量应该取8-12个为宜,也就是说,每个基站所能同时承载的话务量应该控制在16000-24000之间,最好不要满载,否则设备容易出现故障。
另外,对于核心网这块,在重视设备检修之余,还应该特别重视各个通信局间的通信机制。比如局内呼叫,局间呼叫,省内呼叫,省间呼叫,其呼叫持续时间不能过长,而且应该优化大规模漫游电话的呼叫流程,从而减轻各个基站和系统负担。
编后语:
以上,我们从当今IT运维的主要行业进行了梳理,寄希望于春节期间举国上下都在闹新春之际,能对IT运维管理给予更多的重视。这一方面不仅是IT系统运维的需求,同时更是某些移动通信、在线点播、电商促销和业务支撑平台公司的需求。而对于呼叫中心管理,则主要有赖于公司自己的人员值班安排与制度规范来确保。
评论