承载网数通设备中路由器设备应急预案

(整期优先)网络出版时间:2019-07-17
/ 2

承载网数通设备中路由器设备应急预案

李鑫

(中国移动通信集团黑龙江有限公司)

摘要:通过对网络设备的系统了解,对网络结构及网络拓扑的组成,功能进行分析解读,对日常维护生产过程中的故障,问题进行处理,对网络进行优化调整。

关键字:路由器,防火墙,故障处理,隐患

一.硬件和软件及常见故障处理:

1.1硬件故障和软件故障:

CE设备故障一般可以分为硬件故障和软件故障两大类。硬件故障主要指路由器电源、模块、端口等部件的故障,可以分为以下几类。

1.1.1电源故障:

由于外部供电不稳定,或者电源线路老化或者雷击等原因导致电源损坏或者风扇停止,从而不能正常工作。由于电源缘故而导致机内其他部件损坏的事情也经常发生。

如果面板上的POWER指示灯是绿色的,就表示是正常的;如果该指示灯灭了,则说明路由器没有正常供电。这类问题很容易发现,也很容易解决,同时也是最容易预防的。

1.1.2故障处理

针对这类故障,首先应该做好外部电源的供应工作,一般通过引入独立的电力线来提供独立的电源,并添加稳压器来避免瞬间高压或低压现象。如果条件允许,可以添加UPS(不间断电源)来保证CE设备的正常供电,有的UPS提供稳压功能,而有的没有,选择时要注意。在机房内设置专业的避雷措施,来避免雷电对CE设备的伤害。

诊断命令1:SE800#showhardwaredetail检查机框和板卡供电电压情况和温度

1.2端口故障:

这是最常见的硬件故障,无论是光纤端口还是双绞线的RJ-45端口,在插拔接头时一定要小心。如果不小心把光纤插头弄脏,可能导致光纤端口污染而不能正常通信。我们经常看到很多人喜欢带电插拔接头,理论上讲是可以的,但是这样也无意中增加了端口的故障发生率。在搬运时不小心,也可能导致端口物理损坏。如果购买的水晶头尺寸偏大,插入CE设备时,也容易破坏端口。此外,如果接在端口上的双绞线有一段暴露在室外,万一这根电缆被雷电击中,就会导致所连CE设备端口被击坏,或者造成更加不可预料的损伤。

1.2.1故障处理:

一般情况下,端口故障是某一个或者几个端口损坏。所以,在排除了端口所连计算机的故障后,可以通过查看端口是否拥有流量或更换所连端口,来判断其是否损坏。遇到此类故障,可以在电源关闭后,用酒精棉球清洗端口。如果端口确实被损坏,那就只能返修处理。

命令:SE800#showports

[local]SE800#showport

Slot/Port:Ch:SubChTypeState

5/1ethernetUp

5/6ethernetUp

9/6ethernetUp

9/7ethernetUp

9/8ethernetUp

1.3线缆故障:

这类故障不属于CE设备本身的故障,但电缆故障经常导致设备系统或端口不能正常工作,所以这里也把这类故障归入CE设备硬件故障。

1.3.1故障处理

此类故障处理方法较为简单,只需更新的接头或者线缆即可。

1.4CE设备的软件故障:

CE设备的软件故障是指系统及其配置上的故障,它可以分为系统错误和配置不当。

1.4.1系统错误

CE设备系统是硬件和软件的结合体。在CE设备内部有一个可刷新的只读存储器,它保存的是这台CE设备所必需的软件系统。这类错误也和我们常见的Windows、Linux一样,由于当时设计的原因,存在一些漏洞,在条件合适时,会导致CE设备满载、丢包、错包等情况的发生。所以CE设备系统提供了诸如Web、TFTP等方式来下载并更新系统。当然在升级系统时,也有可能发生错误。

1.4.1.2处理方法:

如因CE设备设备升级导致出现问题或设备瘫痪。应立即将设备软件或补丁回退到升级之前的版本。

1.4.2配置不当

由于各种CE设备配置不一样,设备维护人员往往在配置CE设备时会出现配置错误。比如VLAN划分不正确导致网络不通,端口被错误地关闭,CE设备和网卡的模式配置不匹配等原因。这类故障有时很难发现,如果不能确保用户的配置有问题,请先备份CE设备原有配置,然后再一步一步地配置。

1.4.2.1故障处理:

如果配置完成后,发现业务异常。在查找的话会很麻烦。直接不保存配置。将CE设备重启,这样CE设备的配置就会恢复到配置之前的状态。(备注:每个CE设备都是双平面保护,分为一主一备。单独重启主用CE设备时,备用CE设备会代替主用交换工作)

命令:reload

1.4.3系统BUG

由于SE800设备已经停止研发及二线的技术支持服务,对于目前的软件问题无法申请补丁解决。

1.4.3.1故障处理:

CE设备如出现路由转发异常,相应进程异常。通过查看对应debug信息定位到出错的问题。可通过切换主备引擎板和重启CE设备使系统进程复位后,故障解除。

reloadswitch

reload

1.5故障处理辅助命令:

showversion

showmemory

showiproute

showiparp

showlog

Debug***(对应异常参数)

showdebugall

showtech

二:提供常驻CE设备维护人员联系方式,做好设备巡检。三:网络现状

3.1.网络信息

3.1.1拓扑结构

学府局和29号楼网络中均有一对CE,上联为Gn-FW。

每对Gn-CE彼此互联,并连接至同一台FW;并与Gn-FW呈口字形连接。

3.2承载业务分析

3.2.1承载业务

进乡Gn业务

学府Gn-CE下联进乡Gn-CE节点其主要的作用就是为学府Gn业务转发输入、输出的IP分组。

3.2.2协议分析

1.学府和29号楼Gn-CE与Gn-FW和DCN-FW直连,负责承载Gn业务和网管业务。每对Gn-CE彼此互联;

2.学府CE与Gn-FW使用OSPF路由互连,CE采用VRRP方式进行冗余配置;

3.29号楼CE与29号楼DCN-fw使用静态路由直连,CE采用VRRP方式进行冗余配置;

4.IMS-CE热备运行在主备模式下。

3.2.3流量分析

Gn-CE设备为流量负载分担。当一台出现故障,流量将从另一台完全承载。

正常情况下Gn-CE连接至FW的VRRP状态为一主一备,主用侧承担绝大部分业务,备用侧承担少量业务。

单侧主用Gn-CE发生故障后,与FW连接的VRRP状态会发生切换,备用侧CE状态变为MASTER,所有业务流量由该CE转发处理。

单侧备用Gn-CE发生故障后,与FW连接的VRRP状态不会发生切换,主用侧CE状态仍为MASTER,所有业务流量由该CE转发处理。

3.3详细设备信息

3.3.1设备基本信息

HLHXF-EPC-CE01-ERSE800

HLHXF-EPC-CE02-ERSE800

HLH29-EPC-CE01-ERSE800

HLH29-EPC-CE02-ERSE800

四.保障措施

4.1保障措施总则

4.2重大事故通报流程

4.3故障处理

4.3.1故障处理原则和步骤

原则:

紧急故障处理整体原则为在不引入其他业务与故障情况下迅速恢复业务

步骤:

查看设备硬件状态;

执行命令showchassis查看CE设备板卡工作情况

执行命令showport查看端口状态

执行命令showlog查看有无异常log信息

查看设备路由状态转发表项.

执行命令showiparp

执行命令showiproute

设备故障处理步骤

执行命令SE800#porteth*/*(端口号)关闭CE设备端口

shutdown

commit

执行命令SE800#porteth*/*(端口号)开启CE设备端口

noshutdown

commit

执行命令reloadswitch切换CE设备主控板主备

执行命令reload重启CE设备

如以上命令执行完成后还是有没有恢复业务。请直接联系爱立信技术支持工程。

4.4改进建议

为了避免类似故障隐患的存在,提高网络设备的安全和稳定性,有如下几点改进建议:

1.改进Gn组网结构,进乡局Gn业务通过同局址Gn出口接入骨干网,避免从学府GnCE绕行,增加业务流的复杂性。也将会减少业务流的故障点。

2.由于SE800设备已经停止研发及二线的技术支持服务,对于目前的软件问题无法申请补丁解决,因此建议规避存在该BUG的OSPF路由进程配置,采用更稳定的其他路由组网方案,如静态路由等。需要防火墙侧配合。

参考文献:

1.《中国移动业务故障处理流程》

2.《中国移动集团数据业务及IP承载业务规范》

3.《IP数通设备技术与测试》

4.《中国移动网络割接管理办法》