當(dāng)前位置:全球制造網(wǎng) > 技術(shù)中心 > 所有分類
問題現(xiàn)象舉例:SR6608設(shè)備作為數(shù)據(jù)核心網(wǎng)設(shè)備,原業(yè)務(wù)在slot3槽位正常運行,后因擴容需求在割接時將業(yè)務(wù)接口切換到萬兆接口槽位slot4,出現(xiàn)業(yè)務(wù)中斷。
問題初步分析:割接前后明確差異有對端的模塊、本端的接口、業(yè)務(wù)流量所在槽位等。排除光模塊等外因,僅從本機角度分析,業(yè)務(wù)從3槽位內(nèi)部轉(zhuǎn)發(fā)變成了從4槽位到3槽位的業(yè)務(wù)流量是的變化,推測高概率為板間通信問題。
1. 考慮到新增的板間通信異常風(fēng)險,進行模擬發(fā)包的板間通信測試:
【probe】display hardware internal ibd sendpkt slot 4 unicast slot 3 100 10
Test Error, ErrorCode = 20000!
【probe】display hardware internal ibd sendpkt slot 3 unicast slot 4 100 10
Test Error, ErrorCode = 20000!
測試結(jié)果均顯示為Error,代碼為20000,代表收包數(shù)量與發(fā)包數(shù)量不匹配,存在丟包或者不通的現(xiàn)象,初步證實設(shè)備確實存在板間通信問題。
2. 由于板間通信問題,涉及出入流量線卡、BKEC托板等多個硬件節(jié)點,無法直接判斷具體原因,所以為進一步驗證板間通信異常情況并確認問題原因,需要進行外接PC的跨槽位ping測試,以確認是BKEC托板的問題還是業(yè)務(wù)單板的問題。需要使用外接PC方案測試的原因是:本機帶源ping本質(zhì)是CPU發(fā)包,是從CPU發(fā)到板卡,無法模擬跨板轉(zhuǎn)發(fā),目的地址是本機地址的收包處理也是同理。
3. 在各槽位外接PC確認直連正常的情況下,依次根據(jù)上述命令測試設(shè)備各槽位板間通信,確認2、3、4槽位之間均存在板間通信問題。
4. 當(dāng)任意兩兩測試均存在故障時,需要收集HG通道的相關(guān)狀態(tài)信息協(xié)助分析,并進行BKEC托板更換測試。
測試命令:【Probe】bcm (主控槽位號) 0 ps
[H3C-probe]display hardware internal lsw kdmi 0 0
[H3C-probe]bcm 0 0 phy/info
[H3C-probe]bcm 0 0 ps
例如:
[SR66-probe]bcm 0 0 ps
ena/ speed/ link auto STP lrn inter max loop
port link duplex scan neg? state pause discrd ops face frame back
hg0 down 12G FD SW No Forward None F XGMII 16360
hg1 down 12G FD SW No Forward None F XGMII 16360
hg2 up 12G FD SW No Forward None F XGMII 16360
hg3 up 12G FD SW No Forward None F XGMII 16360
hg4 down 12G FD SW No Forward None F XGMII 16360
hg5 down 12G FD SW No Forward None F XGMII 16360
5. 以上測試命令可以用于查看HG口的狀態(tài)信息,顯示為HG down說明對應(yīng)槽位一定存在板間通信問題。但是顯示為up,不代表板間通信一定正常,實際存在HG顯示為UP但是發(fā)生板間通信故障的情況。
解決方法板間通信異常通常是由于硬件異常導(dǎo)致的概率性觸發(fā)故障,從優(yōu)先恢復(fù)業(yè)務(wù)角度出發(fā),可以按重啟子卡-重啟槽位-重啟整機的順序嘗試,依次觀察故障現(xiàn)象是否消失。若整機重啟無法解決,則必須通過替換測試的方案確認硬件故障點,使用【Probe】bcm (主控槽位號) 0 ps為主要測試命令,如果可以進行跨板ping驗證則更佳。
PS:附加的收集信息,查看槽位與槽位的ibd連接顯示:
異常情況:
[SR6608-probe]display hardware internal ibd connect slot 0 statistic
slot Status Rcv Snd SndFail AllocFail RcvLose
1 fail 0 14253 0 0 14314
4 ok 14324 14323 0 0 0
5 ok 7 7 0 0 0
6 ok 0 0 0 0 0
正常情況:
[SR6608-probe]display hardware internal ibd connect slot 0 statistic
slot Status Rcv Snd SndFail AllocFail RcvLose
1 ok 121053 121052 0 0 0
2 ok 0 0 0 0 0
5 ok 79786 93991 0 0 0