最近親歷的一起網(wǎng)絡(luò)故障,故障比較典型,排錯(cuò)思路比較可取。我把這個(gè)過程寫下來和大家分享,希望能夠幫助到大家。
1、癥狀描述
客戶來電報(bào)告中心主網(wǎng)絡(luò)則基本正常,而一個(gè)子網(wǎng)突然變慢。這是本地鐵通網(wǎng)絡(luò)服務(wù)公司,該公司為普通用戶提供Web服務(wù)和Internet接入服務(wù)。前幾天其服務(wù)的一個(gè)片區(qū)的用戶反映網(wǎng)絡(luò)速度很慢,發(fā)Email也需要等待超過60秒以上的時(shí)間才能聯(lián)通。這個(gè)片區(qū)被劃分為一個(gè)子網(wǎng),從主機(jī)房的網(wǎng)管系統(tǒng)上觀察發(fā)現(xiàn)除了該片區(qū)(子網(wǎng))路由器流量很高以外(測試為97%),中心網(wǎng)絡(luò)的路由器與其它子網(wǎng)的交互流量均為40%以下。此外,沒有其它特別現(xiàn)象。
2、診斷過程
鐵通的維護(hù)人員自行進(jìn)行了網(wǎng)絡(luò)排錯(cuò)可惜沒有找到故障所在,由于不能斷開網(wǎng)絡(luò)停止用戶服務(wù)來進(jìn)行檢查,于是求助于我們,本人被派出診。應(yīng)該說,從癥狀上看這個(gè)故障比較簡單,只要查出子網(wǎng)的路由流量來源就可以很快確定故障方向,進(jìn)一步則立即可以查出流量源。
從網(wǎng)絡(luò)拓?fù)鋱D上看,故障子網(wǎng)與中心網(wǎng)絡(luò)為E1鏈路。故障子網(wǎng)下面有一個(gè)營業(yè)廳,一般只與中心網(wǎng)絡(luò)交互一些業(yè)務(wù)數(shù)據(jù)應(yīng)該不會有太大的流量。此外,該子網(wǎng)下的Web服務(wù)器數(shù)量為45臺,中心的網(wǎng)管系統(tǒng)報(bào)告97%的流量肯定是過高的。
筆者考慮只有一種情況可以比較多地占用E1通道的有效流量,那就是故障子網(wǎng)下的網(wǎng)站與中心網(wǎng)絡(luò)的網(wǎng)站或服務(wù)器之間有多媒體文檔的傳輸或者下載業(yè)務(wù)才會造成這種情況。不過詢問管理人員得知中心網(wǎng)絡(luò)并不提供諸如多媒體視頻的播放和下載服務(wù),那只能借助工具進(jìn)行檢測了。
由于故障網(wǎng)絡(luò)規(guī)模比較小,中心網(wǎng)絡(luò)的網(wǎng)管系統(tǒng)只支持到路由器一級的管理,交換機(jī)和服務(wù)器等采用的是廉價(jià)的桌面交換機(jī),所以無法支持網(wǎng)絡(luò)管理。將網(wǎng)絡(luò)測試儀接入交換機(jī)進(jìn)行測試,啟動便攜網(wǎng)管功能,可以看到路由器的流量和網(wǎng)管系統(tǒng)觀測的到的流量是相同的,均為97%左右。
查看中心網(wǎng)絡(luò)處與此相連的路由器流量,也是997%左右,這說明路由器通道鏈路性能基本正常。不過這樣高的通道流量必然導(dǎo)致路由器擁塞和丟包,所以從流量的角度看又是不正常的,F(xiàn)在需要了解的是,如此高的路由流量是從哪里來的,以及數(shù)據(jù)包到達(dá)路由器以后的去向等。這樣就可以很快定位導(dǎo)致如此之高的通道流量的數(shù)據(jù)源和擁塞源。
將網(wǎng)絡(luò)流量分析儀接入網(wǎng)絡(luò)的路由器通道進(jìn)行監(jiān)測和分析,結(jié)果顯示95%流量流向了業(yè)務(wù)數(shù)據(jù)服務(wù)器,且多數(shù)為HTTP和Email方面應(yīng)用。其中,Internet訪問流量占88%,本地流量占7%。查看流量分析儀指示的流量來源分布圖,沒有發(fā)現(xiàn)集中的流量應(yīng)用,IP地址分布比較均衡,最高的流量只占0.5%。這些數(shù)據(jù)表明,用戶的應(yīng)用比例均衡,故障原因應(yīng)該在應(yīng)用過程中而不是某個(gè)集中的用戶“轟擊”比如黑客等。也就是說,應(yīng)該是應(yīng)用的過程和通道出了問題。其原因是這些流量按通道設(shè)計(jì)不應(yīng)該到達(dá)營業(yè)廳網(wǎng)絡(luò)的業(yè)務(wù)服務(wù)器,而是應(yīng)該直接從中心網(wǎng)絡(luò)的Internet主路由器進(jìn)入互聯(lián)網(wǎng)。那么,這些流量是如何被引導(dǎo)到營業(yè)廳服務(wù)器方向上來的呢?
下面我們進(jìn)行進(jìn)一步的分析,大家知道IP數(shù)據(jù)包在傳輸過程中會在路由器中作地址解析(ARP),或是在本地DNS中進(jìn)行域名分析。如果這些分析路徑出問題,則IP數(shù)據(jù)包的傳輸和交換就會出問題。根據(jù)流量分析儀的指示,筆者任意選擇了10個(gè)IP地址做路由追蹤測試,用網(wǎng)絡(luò)測試儀追蹤的結(jié)果是,他們都要經(jīng)過一個(gè)DNS服務(wù)器。而模仿營業(yè)廳網(wǎng)絡(luò)成員分別對已知的本地和外地用戶做ICMP監(jiān)測和路由追蹤測試,結(jié)果發(fā)現(xiàn)ICMP監(jiān)測中重定向數(shù)據(jù)包占 82%,目標(biāo)不可達(dá)數(shù)據(jù)包數(shù)量占13%。這表明,只有約2%的用戶能一次性出入正常路由到達(dá)目標(biāo)站點(diǎn),其余95%的IP數(shù)據(jù)包都要經(jīng)過路由競爭或重新發(fā)送才能有部分機(jī)會到達(dá)目的地。
北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |