华为U2000网管常见故障分析

(整期优先)网络出版时间:2023-04-15
/ 3

华为U2000网管常见故障分析

潘娜 ,张丽娜 ,赵斌

91917部队

【摘要】华为SDH传输网是一种多业务传送平台,承载的常见有通道业务和以太网业务。在业务开通和维护过程中,华为SDH传输网网管系统会上报一些常见告警,这些告警信息反映了通道业务的运行情况。

【关键词】网管;光端机 ;光纤;告警;故障分析

华为SDH传输网络能够支持多业务接入,满足大带宽传输,提供了可靠的通信环境。SDH传输网丰富的维护字节信息,使其具有良好的自愈能力。加上华为强大的网管系统,一般的业务故障,通过华为U2000网管系统的告警信息,就可快速定位故障,组织开展消缺。本文将对华为U2000网管常见的几个典型故障案例及相应的排除方法加以分析。

    案例一:因光功率过载导致光路出现误码

(一)系统组网

    4端华为Metro3000设备组成2.5G的两纤双向复用段保护环,1 号站为网管站,1 号站和4 号站距离为10km,使用8 芯光缆的1、2芯,第1芯为1号站的收。

(二)故障现象

1号站至4号站的S16 板上报R-LOS告警,4号站至1号站的S16板上报MS-RDI告警。用光功率计在1号站ODF测试收4号站的光功率,为收无光,在4号站测试至1号站的S16输出光功率为0dBm。判断是4号站发往1号站的第1芯光纤出现了问题。对光缆里的其它纤测试,发现第3芯可用。将尾纤由第1芯换到第3芯后告警消失,但性能事件上报RS、MS误码。

(三)故障分析及排除

换纤后,在网管上查询1号站收4号站的光功率为-3dBm,光功率实测也在-3dBm附近。怀疑是光功率过载导致误码产生。检查工程文档中的光功率记录表,发现工程期间记录的值为-13dBm ,但是注明在1号站收端加了一个10dB的光衰耗器,而且使用的是长距的SS62S1603板。

经查,在1号站ODF第3芯到S16之间并未找到光衰耗器,在ODF第1芯上将“法兰盘”卸下来观察,发现一面写有S10 ,另一面写有1550nm 的字样,该连接器为光衰耗器。用这个光衰耗器替换3 号纤在ODF上的法兰盘后,S16 收光功率恢复到-13dBm,误码消失。

(四) 故障小结

    有些光衰耗器外形与法兰盘一致,如果安装在ODF上,在换纤时往往会被忽视。在换纤后要测试收光功率值,并和工程文档中记录的值进行比较。日常维护时,可用网管查询S16 板的收光功率,并和工程文档的数据比较,如果发生变化应及时处理。

案例二:光模块故障导致光路中断

(一)故障现象

A、B两站间8芯光缆的第1、2芯,对开了一套Metro1000 V3设备,组成155M无保护链,A站为网管站,A、B间开通了16个2M信道。某日,维护人员接到用户申告:16个2M全部中断。在A站的网管上,发现B站脱管(变灰),A、B间连线变红,A端设备155M光口上报R-LOS紧急告警。

(二)故障分析及排除

按照故障定位应遵循的“先外部,后传输”的基本原则,首先要判断光缆是否中断。A和B站在ODF上,用接光功率计和光源,测试第1、2芯光纤,收光均正常,证明了光缆线路好。

在A站,用尾纤加10dB光衰后对Metro1000 V3设备的155M光口自环,发现设备侧红色告警灯亮、网管上R-LOS告警不消失,说明光模块或光板故障。

用替换法,拔下A站Metro1000 V3设备光板上155M光模块,并用同型号的光模块替换后,网管上A、B间连线变绿,A端设备155M光口的R-LOS告警消失,16个2M恢复正常。

(三) 故障小结

在本案例中,应按照“先外部,后传输”的故障定位基本原则,首先确认非光缆中断的情况下,再进行站内故障排查。利用光路环回法压缩、判断传输设备故障时,禁止用尾纤直接短连光端机,如确需进行上述操作,必须在光收发器件之间串接不小于10dB的光衰耗器。

    案例三:光纤自环导致的业务中断

(一)系统组网

    4端OptiX 155/622设备组成622M单向通道保护环,为集中型业务,恢复方式为“恢复式”,业务中心站为1号站。由于光缆未到位,3号站与4号站的光纤未连接,实际组网为一个断环。该网络业务运行一直正常。

(二)故障现象

    某日,维护人员认为3号站与4号站间的光板一直有R-LOS告警,影响对正常告警的处理,于是决定用尾纤将这两个站点未用的光板自环。维护人员先用尾纤将3号站东向光板自环,观察光板告警灯熄灭,业务运行正常;次日,维护人员又用尾纤将4号站西向光板自环,观察光板红灯告警灯熄灭,业务正常。但约10余分钟后,接到网管站通知:全网业务中断,且未出现任何告警。

(三)故障分析及排除

    在3号站与4号站间断纤的情况下,2号站、3号站到1号站的业务和1号站到4号站的业务走的是备环。当3号站东向光板自环时,3号站的备环方向恢复正常,因此对各站主备环的收发状态没有影响,即原来收主环的还收主环,收备环的还收备环,业务仍保持正常。

    当4号站西向光板自环时,4号站的主环方向恢复正常。由于2M业务的通道保护是恢复式的,即如果主环恢复正常,则10分钟后业务将自动倒换回主环。这样,原来收备环方向的业务:1号站收2号站、3号站的业务以及4号站收1号站的业务,10分钟后均将倒换回主环。而此时主环的业务却是4号站环回的业务,也就是说,此时4号站从主环收1号站以及1号站从主环收2号站、3号站的业务都是它们自己从备环发出去而在4号站环回的业务。

    在这种情况下,2号站、3号站从主环收1号站的业务以及1号站从主环收4号站的业务均正常;而1号站收2号站、3号站的业务以及4号站收1号站的业务均为主环方向的自环业务。因此所有站没有任何告警信息。

    维护人员返回4号站,将自环尾纤拔掉,业务立即恢复。查询此时各站告警,4号站及1号站的支路板出现PS保护倒换告警。

(四) 故障小结

    对于通道保护环,在断环保护倒换动作的情况下,切勿随便将光路自环,在自环前,一定要仔细分析可能产生的影响,避免业务阻断。

案例四:Metro3000设备的PQ1单板告警异常

(一)故障现象

Metro3000设备PQ1板告警有时会出现异常情况,多数情况下虽不影响业务的运行,但也是设备隐患,需作彻底处理,主要有以下两类:一是业务配通后2M自环正常,断开2M自环线,单板的告警灯不闪,网管中也无告警上报。二是单板的告警灯闪烁,但网管无告警上报。

(二)故障分析及排除

出现这两种情况,可能是由于支路属性设置的问题,或是单板本身故障。

如果是“业务配通后2M自环正常,断开2M自环线,告警灯不闪,网管无告警上报”,可以判断为单板告警未正常上报。此时,首先通过网管检查该PQ1板的装载、软件环回、告警反转设置,如有不正常改正即可。如网管中查询设置均正确,则有可能是单板侧数据同网管不一致。

如果是“单板告警灯闪烁,但无告警上报”,此情况多为支路板告警误告。处理方法为:打开所有告警的抑制,包括支路的“其他”类告警,然后重新查询告警,此时网管及命令行中可看到有告警上报,检查引起告警灯闪烁的告警类别以作相应处理:多数情况为UP_E1_AIS和LP_RDI告警,是由于对应通道未接入实际业务而产生的告警,重新将告警抑制设为默认值,此时网管及命令行中相应告警会结束,但单板告警灯不会停止闪烁,对PQ1板进行软复位,并观察单板软件是否真正进行了复位:观察PQ1的运行灯和告警灯,多数情况复位后告警灯就会停止闪烁,如仍闪烁则需对单板进行硬复位或拔插操作,如现象依旧则可判断是单板故障,需更换PQ1单板。

(三) 故障小结

处理单板故障时,常用的方法为环回法、替换法、告警性能分析法、更改配置法和仪表测试法。对不同的故障,需根据实际情况灵活运用以上方法进行故障定位与排除。

    案例五:ECC路由规划不合理造成网元频繁脱管

(一)系统组网

    某传输网络由99个SDH设备组成,全网光路互通。有2个网关网元通过HUB连接到中心机房网管。

(二)故障现象

    该传输网络的网管上,经常出现若干个网元颜色突然变灰又恢复的现象,而所有业务始终正常。

(三)故障分析及排除

    检查两个网关网元管理的网元数量:一个网关网元管理了69个网元,另一个管理了28个网元。由此可知是因为网关网元管理域分配不合理,从而造成ECC通信异常,在网管上呈现网元频繁脱管的现象。

    重新调整2个网关网元的管理域分别为49个和48个网元,运行观察一段时间,部分网元突然变灰又恢复的现象未再次出现。

(四) 故障小结

    此案例为ECC子网内网元数量过多,从而导致网元频繁脱管。脱管现象出现的频度、持续时间长短和覆盖范围,随着网络规模大小的不同而不同。

一般来说,网元脱管不会引起传输设备所承载业务的中断,但会给传输网管的管控带来极大不便:脱管会导致网管无法对网元进行实时监控,不能及时发现传输网络存在的隐患,不仅脱管网元的告警信息和运行状态无法上报至网管,而且操作人员无法对其进行必要的业务配置,会对各类电路调度造成极大的障碍。

案例六:用水笔拨动ID拨码导致单板腐蚀损坏

(一)故障现象

某Metro3000网元正常运行一段时间后,主控板突然故障,表现为网元ID失效,网元无法登录。

(二)故障分析及排除

经查,类似的单板故障都是由于拨码处被腐蚀而导致单板损坏不能正常工作。Metro3000的SCC板上有拨码开关用来设置该网元ID,由于开局时使用水笔拨动拨码开关更改 ID,导致化学成分腐蚀拨码开关。此故障需要更换主控板。

(三)故障小结

要求在开局和维护中,严禁使用含有化学腐蚀成分的非常规工具拨动单板的拨码开关,应使用镊子等工具设置拨码开关。

   案例七:通道环SNCP节点带的链上网元因支路属性设置成“有保护”导致业务中断

(一)系统组网

    1、2、3、4、5号站组成155M通道保护环带链,其中1、2、3、4为环上网元,5为链上网元,1号站为带链节点,主环方向为1-2-3-4-1。保护环上2、3、4号站到5号站的业务用SNCP保护,业务开通后倒换测试正常。

(二)故障现象

    某日,3号站和4号站之间的光缆中断,维护人员发现2号站到5号站的业务中断:5号网元对应的支路通道有TU-AIS告警,对端站2号网元支路的通道有LP-RDI告警。3号网元到5号网元的业务正常。

(三)故障分析及排除

    5号网元有TU-AIS告警,可以判断是2号站发往5号网元的业务出现了问题。正常情况下,2、3、4号站的业务经过1号站西向光板到5号网元;断纤后2、3号站的业务经过1号站东向光板到5号网元,由1号站网元完成SNCP的倒换。

    选取一条从2号到5号网元的2M业务,在网管上查询该业务在1站点生成的SNCP业务对的状态:工作源异常,保护源正常,SNCP保护倒换正常。可排除SNCP倒换问题。

    因断纤后3号站点到5号站点的业务正常,选择一条2号站到5号站的业务与一条3号站到5号站的业务进行对比后,发现在5号网元对应的支路属性不一致:与2号网元有业务的5号网元1槽支路板对应的通道为“有保护”,而与3号网元有业务的5号网元2槽支路板对应的通道为“无保护”。

    将5号网元1槽支路板与2号网元有业务的通道的支路属性设置为“无保护”,2号站到5号站的业务恢复。

(四) 故障小结

    如果把链上站点支路板设为有保护时,在断光纤的那一刻(SNCP倒换还未开始时,且断纤为主纤时),链上站点支路板接收不到业务,由于支路板属性为有保护,故支路板会倒换到另一个方向进行选收业务(犹如PP环),而另一个方向是没有正确业务的,故业务发生中断。且SNCP倒换成功后,链上站点支路板也并不能自动倒换到正常的方向来接收业务。从而导致业务中断。

    案例八低价SNCP业务中间站点以VC4穿通导致SNCP保护失败

(一)系统组网

    1号站点为Metro3000设备,2、3、4号站为OptiX 155/622设备,5号网元为1号站设备的扩展子架。1、2、3、4号站组成155M的通道保护环,为集中型业务,主环方向为1-2-3-4-1,2、3、4号站的业务全部下到1号站的扩展子架5号网元上,用SNCP保护。

(二)故障现象

    某日,3号站和2号站之间的光缆被割断,维护人员发现2、3号站到1号站的业务中断,5号网元对应2、3号站的通道有TU-AIS告警,对端站的通道有LP-RDI告警。

(三)故障分析及排除

    5号网元有TU-AIS告警,根据告警分析可以判断是2、3号站发往5号网元的业务出现了问题。正常情况下,2、3、4号站的业务经过1号站Metro3000定义的西向光板到5号网元;断纤后2、3号站的业务经过1号站Metro3000定义的东向光板到5号网元,由1号站Metro3000网元完成SNCP倒换。由上可知,可能是1号站或2号站网元出现了问题。

    分析1号站的配置发现,1号站到2、3、4号站的配置中,SNCP按VC-4级别的业务进行了配置,这就导致SNCP只能根据VC-4的告警来进行倒换,而不能按某个2M信号的告警来进行倒换。

    修改配置,将VC-4级别的业务更改为VC-12级别的业务后倒换正常。

(四) 故障小结

    SNCP业务配置时,两端故障监测的业务级别必须相一致。对该问题,在1号站做断纤测试是不能被发现的,因为主用(西向)光板断纤后,能检测到VC-4有告警,可以成功进行倒换。

    案例九:创建业务时因未配置4.0平台设备的逻辑系统导致单板无法选择

(一)系统组网

    A、B两站新开通的两端设备组成155M无保护链,A、B网元设备型号分别为Metro2050和Metro1000 V3,现从A-8EFTE4-1口至B-3EFT-1口做一条5×2Mbit/s的以太网业务。

(二)故障现象

    用U2000网管创建SDH路径时,发现A站Metro2050的8EFTE4单板无法被选中。

(三)故障分析及排除

    A网元Metro2050的SCC主控板版本为4.01.17.10,该设备为4.0主机平台。4.0设备在配置业务前,要为光板、以太网板配置逻辑系统,否则业务无法创建成功。

    打开A网元的网元管理器—配置—逻辑系统,将相应的光板和8EFTE4添加到保护组,即建好了逻辑系统。再次配置以太网业务:在创建SDH路径界面中,A-8EFTE4-1口能被选中,创建路径成功。

(四) 故障小结

    对于Metro3000、Metro2050和Metro1000 V2等4.0平台设备,在创建业务前,要先创建逻辑系统,否则设备单板无法选择。

以上是9个华为U2000网管中常见的典型故障案例及相应的排除方法,在日常值勤工作中很容易遇到,按照故障排除方法即可排除故障,保证通信畅通。

1