华为光纤交换机基本故障处理2
华为OceanStor SNS2124、SNS2224、SNS2248系统光纤交换机是华为推出的几款全光纤交换产品,目前得到了企业和单位的广泛应用,相比传统交换机,华为光纤机更灵活、简单而且简便易用,下面着重从技术方面同大家一起分享华为SNS2124、SNS2224光纤交换机故障诊断及处理方法。
一、华为SNS2124、SNS2224光纤交换机基本故障处理
1、License
某些功能需要License才能正常工作。必须使用交换机的License标识符才能申请License,所以多个交换机不能使用同一个License,在联系华为技术支持工程师之前,请使用licenseshow命令查看,确保License已正确安装。
交换机功能运行不正常
可能原因和建议措施
可能未安装License,请确定已安装的License。
1)连接到交换机,并以拥有管理员权限的用户名登录。
2)输入licenseshow命令,查看当前交换机上所安装License的列表。
2、时间不同步故障
建立NTP有助于同步交换机的消息日志和Fabric内其他交换机的端口日志,这将使查找定位问题更为方便。
可能原因和建议措施:
在Fabric中,交换机上未建立NTP(Network Time Protocol)。建议在所有SAN和metaSAN的Fabric中的交换机都建立NTP。
3、交换机消息日志
交换机消息日志(RAS日志)包含了交换机或Fabric中所发事件的消息,这是一个了解交换机或Fabric运行状态的有效工具,每周检查RAS日志非常必要,可以在早期发现问题,避免小问题成为大问题。
以下是交换机消息日志中一些常见的问题:
系统消息日志不准确
可能原因和建议措施:
在极少数情况下,用TC(Track Change)功能追踪到的事件会上报错误的系统消息日志。例如,用户输入正确的用户名和密码,但无法登录,这是因为用户数量已满。然而,查看系统消息日志,发现报告登录成功。
如果交换机用户达到了最大用户数,即使输入正确的用户名和密码,登录还是会失败。但在这个例子中,TC向系统消息日志错误地上报了此事件,导致显示登录成功。这种现象仅发生在已达到最大用户数的情况下,其他情况下系统消息日志反映的都是真实情况。
在交换机日志中出现MQ错误
可能原因和建议措施:
MQ错误是一个消息队列错误,通过寻找M和Q两个字母后是否伴随数字来辨别是否有MQ错误。MQ错误会导致设备从交换机的NS(Name Server)上断开,或者致使交换机无法接入Fabric中。
如下所示,在MQ错误消息中,MQ后面跟着一个数字:
2004/08/24-10:04:42, [MQ-1004], 218,, ERROR, ras007, mqRead, queue = raslog-test- string0123456-raslog, queue ID = 1, type = 2
MQ错误非常罕见,并且很难解决,需要与华为技术支持工程师合作来解决这个问题。当遇到一个MQ错误,通过输入supportsave命令来获取交换机的调试信息,然后提交supportsave命令输出的数据给华为技术支持工程师做进一步分析。
在交换机日志中出现I2C总线错误
可能原因:
I2C总线错误通常表明存在有出现故障的硬件、设备安装不当或插片安装不当,具体的项目会列在错误信息中。一些CPT(Chip-Port)和EM(Environmental Monitor)消息中包含有I2C相关的消息。
如果I2C消息并未表示出特定的硬件失效,依然需要调试硬件,因为这是最可能的原因。
4、交换机开机以及滚动重启检测
企业级平台模式在初始化启动后又重新启动
可能原因和建议措施:
该问题发生在企业级平台上的主备CP刀片启动过程中。如果备CP在获得HA同步并且其功能并未齐全之前,主CP上出现故障,那么备CP将无法采取积极措施成功执行主备自动切换功能。
滚动重启检测
当 交换机或企业级平台连续出现意外重启时,就会发生滚动重启。系统未检测到滚动重启之前,将持续重启。滚动重启检测(Rolling Reboot Detection,RRD)发生时,交换机处于稳定状态。这样就可以收集最小的supportSave输出并发送给服务支持供应商进行数据分析。在 RRD模式中,同样支持USB设备。运行usbstorage -e命令,开启USB设备。运行supportsave -U -d MySupportSave命令,收集结果。不是每次重启都会激活RRD特性。
重启分类
在交换机和企业级平台上会产生两种类型的重启:预期型和突发型。命令初始化而导致的重启就是预期型重启,这类重启往往会被RRD特性忽略。这类命令包括:
——reboot
——haFailover
——fastBoot
——firmwareDownload
在某一时间段内,如果重启历史记录中一直显示突发性重启原因,那么RRD特性将会被激活,并阻断重启。RRD特性激活的时间取决于交换机。以下就是突发型重启:
——复位
—交换机或CP的动力循环
—Linux重启命令
—硬件看门狗超时
—与心跳丢失有关的重启
——软件故障:内核崩溃
—一旦系统检测到内部致命性且其无法进行安全恢复的错误,一般而言,系统会输出一条错误信息给控制台,转储堆栈跟踪进行调试,然后再执行自动重启。
—在发生内核崩溃以后,系统没有足够的时间写入重启原因,从而导致重启原因为空。这被视为复位案例。
——软件故障
—软件看门狗
—ASSERT
—软件恢复失败
此类问题与HA重启有关。当交换机无法恢复至稳定状态时,此问题就会出现。HASM日志包含此类故障的更加详细和具体的信息,例如:
——故障恢复失败:出现在自动切换故障并且CP必须重启时。
——备CP对切换未准备就绪时进行的故障切换:出现在主CP需要故障切换,但备CP对接管主控权未准备就绪时。
——未完成LS转移时进行的故障切换:出现在逻辑交换机事务还未处理完成时。
软件重启失败
此类问题与HA重启相关。当交换机无法加载固件至可用状态时,此问题就会出现。HASM日志包含此类故障的更加详细和具体的信息,例如:
——系统应用超时:CP未能在分配的时间内完成切换。
——LS配置超时和失败:逻辑交换机配置失败和超时。
在激活RRD后,以拥有管理员权限的用户登录。运行supportShow或supportSave命令,收集一定量的数据解决问题。