文章分类

当前位置:首页>光模块>光模块>华为光纤交换机基本故障处理2

华为光纤交换机基本故障处理2

发布时间:2016-07-25 点击数:785

华为OceanStor SNS2124、SNS2224、SNS2248系统光纤交换机是华为推出的几款全光纤交换产品,目前得到了企业和单位的广泛应用,相比传统交换机,华为光纤机更灵活、简单而且简便易用,下面着重从技术方面同大家一起分享华为SNS2124、SNS2224光纤交换机故障诊断及处理方法

一、华为SNS2124、SNS2224光纤交换机基本故障处理

1、License

某些功能需要License才能正常工作。必须使用交换机的License标识符才能申请License,所以多个交换机不能使用同一个License,在联系华为技术支持工程师之前,请使用licenseshow命令查看,确保License已正确安装。

交换机功能运行不正常

可能原因和建议措施

可能未安装License,请确定已安装的License。

1)连接到交换机,并以拥有管理员权限的用户名登录。

2)输入licenseshow命令,查看当前交换机上所安装License的列表。

2、时间不同步故障

建立NTP有助于同步交换机的消息日志和Fabric内其他交换机的端口日志,这将使查找定位问题更为方便。

可能原因和建议措施:

在Fabric中,交换机上未建立NTP(Network Time Protocol)。建议在所有SAN和metaSAN的Fabric中的交换机都建立NTP。

3、交换机消息日志

交换机消息日志(RAS日志)包含了交换机或Fabric中所发事件的消息,这是一个了解交换机或Fabric运行状态的有效工具,每周检查RAS日志非常必要,可以在早期发现问题,避免小问题成为大问题。

以下是交换机消息日志中一些常见的问题:

系统消息日志不准确

可能原因和建议措施:

在极少数情况下,用TC(Track Change)功能追踪到的事件会上报错误的系统消息日志。例如,用户输入正确的用户名和密码,但无法登录,这是因为用户数量已满。然而,查看系统消息日志,发现报告登录成功。

如果交换机用户达到了最大用户数,即使输入正确的用户名和密码,登录还是会失败。但在这个例子中,TC向系统消息日志错误地上报了此事件,导致显示登录成功。这种现象仅发生在已达到最大用户数的情况下,其他情况下系统消息日志反映的都是真实情况。

在交换机日志中出现MQ错误

可能原因和建议措施:

MQ错误是一个消息队列错误,通过寻找M和Q两个字母后是否伴随数字来辨别是否有MQ错误。MQ错误会导致设备从交换机的NS(Name Server)上断开,或者致使交换机无法接入Fabric中。

如下所示,在MQ错误消息中,MQ后面跟着一个数字:

2004/08/24-10:04:42, [MQ-1004], 218,, ERROR, ras007, mqRead, queue = raslog-test- string0123456-raslog, queue ID = 1, type = 2

MQ错误非常罕见,并且很难解决,需要与华为技术支持工程师合作来解决这个问题。当遇到一个MQ错误,通过输入supportsave命令来获取交换机的调试信息,然后提交supportsave命令输出的数据给华为技术支持工程师做进一步分析。

在交换机日志中出现I2C总线错误

可能原因:

I2C总线错误通常表明存在有出现故障的硬件、设备安装不当或插片安装不当,具体的项目会列在错误信息中。一些CPT(Chip-Port)和EM(Environmental Monitor)消息中包含有I2C相关的消息。

如果I2C消息并未表示出特定的硬件失效,依然需要调试硬件,因为这是最可能的原因。

4、交换机开机以及滚动重启检测

企业级平台模式在初始化启动后又重新启动

可能原因和建议措施:

该问题发生在企业级平台上的主备CP刀片启动过程中。如果备CP在获得HA同步并且其功能并未齐全之前,主CP上出现故障,那么备CP将无法采取积极措施成功执行主备自动切换功能。

滚动重启检测

当 交换机或企业级平台连续出现意外重启时,就会发生滚动重启。系统未检测到滚动重启之前,将持续重启。滚动重启检测(Rolling Reboot Detection,RRD)发生时,交换机处于稳定状态。这样就可以收集最小的supportSave输出并发送给服务支持供应商进行数据分析。在 RRD模式中,同样支持USB设备。运行usbstorage -e命令,开启USB设备。运行supportsave -U -d MySupportSave命令,收集结果。不是每次重启都会激活RRD特性。

重启分类

在交换机和企业级平台上会产生两种类型的重启:预期型和突发型。命令初始化而导致的重启就是预期型重启,这类重启往往会被RRD特性忽略。这类命令包括:

——reboot

——haFailover

——fastBoot

——firmwareDownload

在某一时间段内,如果重启历史记录中一直显示突发性重启原因,那么RRD特性将会被激活,并阻断重启。RRD特性激活的时间取决于交换机。以下就是突发型重启:

——复位

—交换机或CP的动力循环

—Linux重启命令

—硬件看门狗超时

—与心跳丢失有关的重启

——软件故障:内核崩溃

—一旦系统检测到内部致命性且其无法进行安全恢复的错误,一般而言,系统会输出一条错误信息给控制台,转储堆栈跟踪进行调试,然后再执行自动重启。

—在发生内核崩溃以后,系统没有足够的时间写入重启原因,从而导致重启原因为空。这被视为复位案例。

——软件故障

—软件看门狗

—ASSERT

—软件恢复失败

此类问题与HA重启有关。当交换机无法恢复至稳定状态时,此问题就会出现。HASM日志包含此类故障的更加详细和具体的信息,例如:

——故障恢复失败:出现在自动切换故障并且CP必须重启时。

——备CP对切换未准备就绪时进行的故障切换:出现在主CP需要故障切换,但备CP对接管主控权未准备就绪时。

——未完成LS转移时进行的故障切换:出现在逻辑交换机事务还未处理完成时。

软件重启失败

此类问题与HA重启相关。当交换机无法加载固件至可用状态时,此问题就会出现。HASM日志包含此类故障的更加详细和具体的信息,例如:

——系统应用超时:CP未能在分配的时间内完成切换。

——LS配置超时和失败:逻辑交换机配置失败和超时。

在激活RRD后,以拥有管理员权限的用户登录。运行supportShow或supportSave命令,收集一定量的数据解决问题。