中关村在线

服务器

年关将近 IT运维管理如何做到高枕无忧

一年一度的春节即将到来。在大家纷纷想着回家的时候,有这样一群人却还在紧张忙碌着。他们就是各大企业的IT运维人员。由于时值传统佳节,各行各业都安排假期,在这举国上下欢欢喜喜过大年之际,往往会给IT行业的管理和运维带来松懈。在这种情况下,我们有必要为大家讲解,在春节假期如何做好IT运维。

有这样一群人:他们经常活跃在办公室倒腾系统、插网线、搬设备、装服务器,每天都在盯着监控屏幕。一旦系统设备出现故障,无论严寒还是酷暑,他们必须第一时间赶到现场。如果处理不当,会对公司带来巨大损失。这群人就是我们今天要讲述的IT运维职场人士。他们背负着巨大的压力,一年365天几乎时时刻刻都需要准备着。

在介绍IT运维与管理之前,首先我们要明确,根据ITSM的解释,IT运维管理主要包括以下两大部分:


1、Helpdesk call center ,呼叫中心管理;主要以值班形式;
2、机房设施和系统管理;现代机房都有软硬件系统告警设备,任何系统异常,都会有邮件、短信、电话等形式第一时间通知维护人员。

因此,在探讨春节期间的IT运维与管理,我们要对其IT系统进行分类逐一分析。不同行业,其IT运维管理在节假日期间的执行要求并不相同。一般来说,在春节期间,春节联欢晚会在线直播、体育赛事、相声小品等多媒体平台,以及团购促销等平台,都会迎来海量的高并发访问量,并对其IT系统和业务支撑带来严峻挑战。这些不同行业的IT服务公司,其IT运维管理的特点也不尽相同。
比如,主要服务内部客户的公司,由于节假日内部客户都休假,IT部门业务量也下降,只需安排call center的值班人员应对突发事件。如果面向外包客户的公司,比如互联网、电商公司,由于节假日业务量反而比平常增加,需要增加人手,并采取轮流值班形式保证正常运行。

正如前文所述,IT系统的运维管理视不同行业而有所不同。对于一般的企业来说,如果它并不对外提供IT服务,而仅仅是日常工作时间,为企业内部员工提供平台支持,企业邮箱也完全外包采用第三方服务的话,他们就无需在春节这个节假日刻意安排人手轮流值班。也就是说对于一般的公司,其网络系统并不重要的话,可以将更多精力放在节后。

对于比较重要的、对外提供服务的IT系统来说,确保7*24正常运行是最基本的要求。在这种情况下,IT运维管理就显得非常重要了。而这,也是我们要介绍的应用服务领域的IT运维管理。

IDC、SDC、NDC等行业公司,由于规模较大,其服务的用户群体和服务内容都比较广,因此,这些企业都安排有专人24小时值班。当然,即使是春节这样的传统佳节,也会有专人值班,以应对突发事件的发生。

然而即便如此,在春节这样的重大节日面前,我们在IT运维管理的时候仍然特别需要注意以下几个问题:

1、硬件设备检修

IDC这类运营商的数据中心,其IT系统都提供有冗余设备(冗余电源、灾备等),可提供在硬件设备宕机的情况下,自动切换并保证系统持久稳定运行的机制。也正是冗余设备的重要性,运维人员在春节这样的节假日,特别需要了解各个硬件设备的现状。

漫画:检查硬件设备(来源:johnshenlee)

这种了解包括两部分:机器本身的可用性和使用周期。如果超出使用周期,需要调配新的机器设备,以满足突发性的高并发访问需求。另外还需要了解冗余设备的可用性。而这种冗余设备的检修往往会被忽视,如果一旦发生异常情况,系统自动切换到冗余设备上而设备发生故障,那么后果也是不堪设想的。

2、保证电源持久供给

“有了电,多方便”。春节期间,家家户户闹新年,往往各大电器都超长时间满负荷运行,从而会给电力的使用带来安全隐患。对于应用服务提供商来说也同样如此,如果电力供给出现故障,那么其他的所有一切工作都白费,而且还会造成难以挽回的巨大财产损失。

对于IDC、SDC等应用来说,在电源方面通常都是采取双备份的机制来确保电源持久供应。有些服务器通常都有四个电源模块,而有些移动运营商甚至配备有UPS直流电源模块房,如果整个大楼停电,可以通过该模块房提供长达一周的用电需求。当然,更有甚者,将数据中心楼宇中的电梯也纳入到UPS供电的体系中,以方便管理员更高效、安全的提供运维、管理工作。

3、职责明确 落实到人

由于这类IT运维管理需要有专人值守,因此,在春节期间应该有职责明确、分工落实到个人的事先安排。通常情况下,这种24小时专人值守,可以采用轮流、现场和远程结合的形式来做出安排。比如,现场值班人员可以安排负责整个机房、数据中心的安全、防护工作,而作为系统监控、常规性故障处理,则可以由远处异地、通过手机、PC终端接入网络进行处理。当然,为了应对严重的突发事件,现场必须配备有专业技术人员。

另外,有些IDC是根据业务区块(数据中心不同的业务区)来分派不同的专业技术人员进行值班监管,在这种情况下,每个运维人员特别需要留意所在的服务器访问情况(包括以往访问记录和高并发访问下的负载分担设备),以便有的放矢做出重点监测。而对于一般的网络设备,由于它们都具有堆叠和级联的功能(将多个交换机整合成单个),在高并发访问的情况下也能确保正常工作。

除了运营服务领域的IT运维管理,其实还有一个重要领域的运维也需要予以重视,也就是通信领域的服务运维与管理。通信领域通常包括运营支撑(类似前面所介绍内容)、核心网、无线网络和传输四大块领域。通常每逢节假日,国家通信网络都会进入一个封网期——也就是节前一周至节后一周的这段时间内,其他工程项目都停止,所有网络都进入安全维护期,以确保高强度通信需求。

和应用服务提供商有点不同的是,设备厂家和通信运营商都在安全维护期安排工程师7*24小时待命,以便支持运营商的维护人员解决故障,如果故障严重,厂家往往都会安排专人前往现场解决故障。

在此次专门针对通信的IT运维管理进行讨论,主要是考虑到新春佳节之际,人们走亲访友,电话量、短信量暴增,会对整个国家网络通信系统、尤其是各个基站带来巨大压力。

移动通信基站

在一般情况下,短信并不会像电话(移动电话)那样,在大年三十的凌晨之际出现“打不通”的困恼。因为短信一般采用的是基于IP的通信原理,不太会出现网络拥堵的情况(但可能会存有延迟)。而电话则是通过基站来建立连接的。基站的呼叫是按照载频来计算,一般每个基站都是2000个载频,每个载频可以带12个电话。也就是说,单个基站其所能承受的是同时支持最多24000个移动电话的呼叫。

在这种情况下,CS领域的IT运维管理应该注意一些什么问题呢?在笔者看来,在春节这样的节假日期间的IT运维管理,CS会比PS相对简单些,毕竟如果出现了话务量过大的情况,可以通过爱尔兰告警(单位时间内呼叫量)在接入层进行限制。除此之外,我们还需要特别注意以下两点:

合理设置 事先防范

不同热点不同城市,其移动电话用户规模也不同。因此,在春节这样的节假日期间,用户群密度不大的地区,其基站载频所带的电话数量应该取8-12个为宜,也就是说,每个基站所能同时承载的话务量应该控制在16000-24000之间,最好不要满载,否则设备容易出现故障。

另外,对于核心网这块,在重视设备检修之余,还应该特别重视各个通信局间的通信机制。比如局内呼叫,局间呼叫,省内呼叫,省间呼叫,其呼叫持续时间不能过长,而且应该优化大规模漫游电话的呼叫流程,从而减轻各个基站和系统负担。

编后语:

以上,我们从当今IT运维的主要行业进行了梳理,寄希望于春节期间举国上下都在闹新春之际,能对IT运维管理给予更多的重视。这一方面不仅是IT系统运维的需求,同时更是某些移动通信、在线点播、电商促销和业务支撑平台公司的需求。而对于呼叫中心管理,则主要有赖于公司自己的人员值班安排与制度规范来确保。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具