维普资讯 http://www.cqvip.com 电估技求 周戈 蔡勇 中国联通深圳分公司 深|Il 518034 l无线接入设备(AN)、选择分配单元(SDU)、 镛I:对移动通信无线系统级设备自身具备的容灾机制进行7介 绍.分析78常容灾中需要注意的问题.并a结合容灾I作实例对 容灾措施进行7介绍。 电路域至分组域网桥设备(cE)、分组数据 服务接点(PDSN)等。在制造商提供的系统 没备中,已经为重要设备考虑了基本的容 灾功能。 羹l弭移动通信无线系统容灾BSO (1)对于OMCR服务器 采用硬盘镜像和数据备份方法。OMCR 1引言 用户对移动通信服务质量的要求日益提 高,而系统设备日益复杂,运营商对系统的 改造、升级、扩容等工作也更加频繁,无论 是人为的失误还是设备本身的故障或者是雷 电、火灾等灾害都可能造成系统设备工作异 常,如何避免设备故障引起长时间和大面积 的用户通信中断,是运营商应该认真思考的 问题。目前,移动基站的密度一般比较大, 个别基站停止工作—般不会造成大的灾难性 后果,因此本文主要讨论系统级设备的容灾 情况。 服务器最常见的问题就是硬盘损坏,OMCR 上的所有硬盘都成对配置,互为镜像。 OMCR]JE务器一般还配置有多个cPu板,个 别CPU异常不会对整个服务器带来致命损 害,如果整个服务器无法自动恢复,则可以 在本机或其它机器重装操作系统和应用软 件,并导入备份数据来恢复。 (2)对于xcDR 一般由多个机柜组成,主要板gt: ̄f主控 板、时钟板、2 Mbit/s接口板、1 000 Mbit/s 交换板、通用处理器板、光纤LAN环、TDM 总线等。其中的关键部件和链路都采用一主 一备配置,在主用设备出现故障时.备用设 2系统自身容灾机制 2G系统,包括GSM和CDMA,一般都 备成为主用设备,接替原主用设备的工作。 (3)对于BSC 各个厂商对不同产品的BSC的定义和 由BSC(基站控制器)、XCDR(语音变码器)、 OMCR(无线操作维护中心)等设备组成。在 2.75G系统中,引入了大量的与分组数据相 关的设备,如数字交叉连接设备(DACs)、 结构有所不同。例如,Motorola CDMA系 统将移动管理器MM和XCDR一起合称为 CBSC,其中MM是一台康柏计算机;而 www.ttm.com.Off o7 维普资讯 http://www.cqvip.com Motorola GSM系统的BSC是与 建设的持续进行,经常都有大量的 xcDR机柜结构基本相同而功能 参数和配置修改,因此要保证比较 定义不同的于XCDR的机柜。 新的数据内容。一般要求每周进行 不管采用什么结构,实现的功能是 数据磁带备份,实际上可以每天拷 一样的。对采用与XCDR相同结构 贝数据库文件到其它计算机上作为 的GsM的B sc,其容灾考虑与 备份。特别是在大型工程建设期间, XCDR相同。而对于采用移动管理 即使几天的数据差别都会对系统造 器MM的CDMA系统,康柏计算 成重大影响。另外,对于OMCR服 机采用双机热备份方式,具有两套 务器上的配置文件(例如,UNIX的 CPU和10接口,双主机安装相同 etc目录下的所有系统配置文件和用 软件并运行一样的进程,在主用设 户目录下的Crontab、Profile等文 备出现故障时,一般由人工进行主 件)也应该定期进行备份,因为这 备倒换使备用主机成为主用主机。 些文件涉及系统及应用软件的初始 (4)对于数据业务设备 化、网络路由设置、主机名设置、服 PDSN作为无线网络到IP网络 务设置、定时任务安排设置、软件 的接入网关,它就是一台路由器,一 路径和环境变量设置等内容,一旦 般采用群集技术,使不一定在地理 机器需要重新安装操作系统和应用 位置上相邻的两个以上的PDSN组 软件,那么临时再去设置这些文件 成群集,既实现负荷分担,又承担容 内容将会耗费大量时间。对于作为 灾备份。SDU中完成分组数据的选 PDSN、AN的交换机和路由器以及 择分配功能(SDF)和分组控制功能 DACs设备,配置一有变化就应该保 (PCF)的板卡硬件相同,通过软件配 存好配置文件并保证随时可用。 置实现不同功能,其中多块SDF相 (2)及时监控并处理问题 当于Ⅳ+1备份,当某块sDF停止工 由于系统自身大部分关键设备 作时,只要剩下的SDF具有足够的 具有主备倒换机制,因此在绝大多 容量,就不会影响业务。而PCF一 数情况下个别设备出现故障不会出 般采用两块互相分担负荷,互为备 现灾难性后果。但运维人员对故障 份。在AN设备中,汇聚节点路由器 情况应保持高度的关注,形成日常 MGx和IP交换机都采用单板Ⅳ_ 1备 的系统健康检查制度,用OMCR命 份。AN到各个关键无线设备的IP连 令检查每个设备的工作状态和系统 接都采用两条线路。 发出的故障告警,力争在当日内解 决故障。对于主备工作的关键设备, 3日常容灾工作需要注意 如果在故障设备恢复之前备用设备 的问囊 也出现故障,则系统可能出现大面 虽然系统本身已经考虑了很多 积用户无法通信或系统很长时间无 的容灾措施,但要保障系统稳定,运 法恢复正常的情况。这时可以通过 维人员还有很多工作要做,特别需 值班人员日常告警监控、每日健康 要注意下面的一些问题。 检查以及系统指标变化趋势进行分 (1)做好数据备份 析,以便及时、全面地发现系统故 首先要做好OMCR上的数据库 障,及时排除隐患。 文件备份工作。该数据库文件包含 (3)检查现场和规范人员行为 整个移动无线系统的设备配置数据 为了避免人为的失误,应建立 和系统参数设置,由于日常优化和 严格的212程施工管理制度和系统操 68 TELECoMMUNICAT10NS TECHN0LoGY/2OO6・3 作维护规程,并经常进行机房现场 检查,以清除机房内不合理飞线、 杂物摆放、工具和其他金属杂物遗 漏等问题。通过规范施工、机房现 场管理、系统操作严格审核和标准 化,可以避免人为引发灾难,如火 灾、短路、断开连接、操作失误等 行为。 (4)保证常备重要而通用 的设备 有一些通用设备,价格并不 贵,但关键时刻如果没有备件,将 可能使小故障成为重大故障。例 如OMCR中的硬盘,本来是服务 器的通用硬盘,但并不是随便到 市场上买一个就能用的,由于需 要硬盘镜像,因此必须考虑是否 是服务器厂商建议的品牌;接口 针数是否与服务器一致;硬盘大 小是否与原盘一致;硬盘磁道数 是否与原盘一致等问题。在硬盘 出现故障时,任何不一致都可能 使新硬盘不能完成替换。而如果 硬盘成对替换则必须重新安装操 作系统和应用软件,这样故障时 间就太长了。如果通过正常流程 申请购买、审批、采购、试用等, 则过程会比较漫长,在这段时间 内镜像备份的另一块硬盘也可能 损坏,最终只能采取重新安装的 措施,这样故障时间将达到10 h 以上。 如果常备一些重要而不算贵重 的设备,如DACs模块、OMCR硬 盘、Hub等,就能在单个部件故障 发生时及时替换,避免拖延时间造 成大的事故。 (5)在主备机制没有生效时 的操作方法 对于采用主备用机制的设备, 只要能及时发现故障并处理,一 般不会出现主备完全失效的情况, 但主备用设备同时异常的情况也 维普资讯 http://www.cqvip.com 电信投 有发生。对于一些 ̄+l冗余备份的 设备,如A接口中继故障、数据业 下面笔者将介绍一种高效的容灾方 案——深圳联通所采用的使用备用 BSC的容灾方案。 真正实施割接时可以挪用cBsc一 101l、1013、1014、1015的部分中 务选择分配功能(sDF)板等设备工 作异常时并不会被冗余设备替换, 这会造成大量 ̄-.tt失败,这些都需 继线路,基本可以满足50条的要求。 以近期话务来看不会出现拥塞。 No.7信令的容量也应考虑,经分析, 对于CBSC-l0l2,只要配置6条 深圳联通CDMA网络有21个 BSC,我们将一个BSC的基站尽量 搬移到其他BSC,假设搬移图l中 要通过指标监控及时发现,并使用 命令使设备恢复正常或者暂时锁掉 故障设备。 的CBSC一1012,使CBSC一1012余 下的基站管理能力能够满足其他任 何一个BSC所带基站的数量。当某 No.7信令链路就够用了。要使数据 业务也能恢复,开始考虑还要配备8 "q"DACs模块,经过网调后由于同一 4采用备用BSC的 容灾方案及实施 上述讨论的前提都是在整个 BSC没有崩溃的情况下进行的。在 各地实际工作中,曾经出现过由于 设备起火、设备维护操作不当、抢修 判断失误等原因引起的BSC长时问 个BSC出现故障时,CBSC一1012将 代替故障BSC管理其下属基站,也 个DACs模块带的基站都同属一个 CBSC,因此在某个CBSC出现故障 就是将故障BSC下的所有基站割接 到CBSC-10l2 时可以将其使用的DACs模块割接 到CBSC一1012所在的AN。CBSC— l0l2上的大部分板件可以从故障 4.1需要考虑的问题 要以CBSC—l0l2替换任一个 CBSC上挪用,因此不需要太大量的 板件备份。 无法恢复的情况。对于发生BSC无 法恢复的情况,一般的办法就是割 接基站,即将故障CBSC下的基站 割接到其 ̄CBSC,由于各个Bsc带 故障BSC,容量方面需要考虑A接 口中继的条数,例如,CBSC一1012 和101l、1013、1014、1015同属于 4.2确定2 Mbit/s线路连接方案 如图l所示,21个CBSC分布 MSC2(交换机2)的范围,要使A 接口中继完全满足新割接入1012的 基站需求,按照目前其他BSC的最 大配置应为50条以上,目前交换机 两只剩余29条A接[J中继电路,在 在4个位置,在新老机房各有一套基 站传输网络和相应的ADC配线架, 图中红线和绿线为各处机房中 有不少基站,因此余下的端口有限, 基站只能分散割接到各个正常工作 的BSC。这种方法的缺点是线路需 CBSC和基站传输网络的连接关系。 CBSC一1012位于老机房,如果从各 要临时搭建,数据也需要临时准备。 CBSC—lOl2 N 图1 CDMA网络21个BSC的位置和传输连接示意 www.tire.COITI.Cn 69 维普资讯 http://www.cqvip.com CBSC I … … …. lf 老机房ADC配线架 :: 新机房ADC配线架 DDF配线架 图2 容灾布线和跳线示意 个机房拉线到老机房,既增加了工 作量又降低了可靠性。由于新老机 房之间可利用光端机提供的传输电 路连接,因此我们确定将需要割接 ・核对传输端口资料和实际电 路的一致性; ・cBSc一1012上板件设备和 备用的CBSC一1012发生作用时,采 取如下操作: ・根据传输端口资料将需要跳 接的飞线连上,使故障BSC的基站 害U接到CBSC-IO12; ・完成故障Bsc所连的DACs数 据设备到CBSC一1012和到AN设备 的连接; ・如果容量需要,从CBSC一 1011、1013、1014、1015上割接部 分中继到CBSC-IO12; ADC配线架所需飞线到位; ・确定割接采用的103个站号, 的传输端口集中到一处(老机房)的 连接方案,如图2所示,这样避免了 错综复杂的连线。 图2中绿色连线表示连接新老 作为CBSC一1012备用,并以这些站 号在CBSC-IO12上建立空的支持 双载波基站的配置数据; ・完成CBSC一1012作为容灾用 的2 Mbit/s线及相关跳线的布线工 程; 机房的传输电路,根据目前新机 房传输下站数量,在新老机房之 间保留64对电路,就可以将可能 发生故障的cBsc从新机房上传 输的2 Mbit/s线路集中到老机房 的配线架。图中的蓝线为应急割 ・在交换机上完成CBSC一1012 下103个基站的Cell ID数据; ・在OMCR上运行容灾数据库 脚本以完成数据的配置,包括小区 PN短码修改脚本、根据原故障Bsc 的基站数据修正CBSC一1012上BTS 配置数据的脚本、用单载波基站运 ・按商用服务标准完成CBSC一 1012与MSC之间的数据配置和联 接时需要连接的飞线,完成故障 BsC所属的基站(无论是通过新 调,开通29条中继; ・为任意一个BSC出现故障准 备完成割接的数据库脚本文件; ・保证传输端口资料能及时更 机房还是老机房上的传输网)到 CBSC-l0l2的传输连接。 行双载波需修改单载波的脚本、运 行邻小区关系脚本、运行跨cBsc链 路IC link配置脚本; 4.3准备工作 要实现BSC容灾目标,必须做 好以下准备工作: ・准备完整的传输端口资料和新 机房到老机房64对容灾传输线路的 端口对应资料; 新,保持与工程建设部经常进行传 输割接后的实际传输端口一致。 ・局部参数调整和具体问题故 障稍}除; ・激活CBSC-IO12下所有的设 4.4出现BSC无法恢复时容灾 BSC投入使用的步骤 备和基站。皿 如对本文内容有任何观点或评论.请发E—mail至 editor@n『n.Corn.cn。 当某个BSC无法恢复需要容灾 7O TELECoMMUNICAT10NS TECHN0L0GY/2006・3