簡述:提到服務(wù)器宕機(jī)檢測(cè),大家會(huì)想到,宕機(jī)能夠很快知道,這個(gè)有什么可做的?實(shí)際上,很多時(shí)候服務(wù)器宕機(jī),并不總是被及時(shí)感知。服務(wù)器宕機(jī),ping或者ssh這是最簡單的做法,但真正的工程實(shí)踐,沒這么簡單。想要獲知服務(wù)器宕機(jī)怎么辦?可以通過服務(wù)器宕機(jī)實(shí)
說到服務(wù)器停機(jī)檢測(cè),你會(huì)想到停機(jī)可以很快知道。有什么可做的?事實(shí)上,服務(wù)器停機(jī)并不總是及時(shí)被感知。服務(wù)器停機(jī),ping或者ssh這是最簡單的做法,但真正的工程實(shí)踐并沒有那么簡單。
想知道服務(wù)器停機(jī)怎么辦?服務(wù)器停機(jī)可實(shí)時(shí)檢測(cè):
1)發(fā)現(xiàn)停機(jī)。
2)提前報(bào)警。
3)告知停機(jī)的詳細(xì)原因,如硬件故障和核心故障bug,網(wǎng)絡(luò)異常等。
4)自動(dòng)報(bào)修生成工單。
我們知道,準(zhǔn)確檢測(cè)和實(shí)時(shí)發(fā)現(xiàn)整個(gè)網(wǎng)絡(luò)物理機(jī)器的停機(jī)可以為停機(jī)分析提供第一個(gè)場景,并獲得第一個(gè)場景的日志。停機(jī)數(shù)據(jù)也可以盡快推送到業(yè)務(wù)或運(yùn)營感知和處理,如自動(dòng)維修、業(yè)務(wù)遷移等,以盡量減少業(yè)務(wù)影響。
更重要的是,準(zhǔn)確的停機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為停機(jī)預(yù)測(cè)提供準(zhǔn)確的標(biāo)記數(shù)據(jù),為以后的停機(jī)預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ),并為運(yùn)營部門提供整體分析,提高處理效率。
那么,如何準(zhǔn)確發(fā)現(xiàn)停機(jī),減少誤報(bào)呢?我們可以有以下操作,如:
心跳源檢測(cè)異常
顧名思義,通過心跳源,初步發(fā)現(xiàn)異常。心跳變化通常有三種新聞,update消息,delete消息和insert新聞。心跳邏輯在于,正常情況下,SA服務(wù)端與NC建立長連接,每幾秒緩存一次心跳,每幾分鐘打包報(bào)告一次,但當(dāng)NC異常時(shí),長連接感知后,立即報(bào)告異常,修改路由表。因此,心跳異??梢詫?shí)現(xiàn)秒感知。
update當(dāng)心跳發(fā)生變化時(shí),就會(huì)出現(xiàn)新聞,心跳異常和心跳恢復(fù)正常時(shí)就會(huì)出現(xiàn),這是心跳的主要來源。
delete新聞,心跳異常,而且SA判斷ping不通,且ssh發(fā)起時(shí),刪除此消息,避免延遲過長。
insert新增機(jī)器或重新安裝后重新上位的機(jī)器發(fā)起的消息對(duì)停機(jī)發(fā)現(xiàn)毫無價(jià)值。uptime使用。
心跳源檢測(cè)任務(wù)的邏輯主要是監(jiān)測(cè)和緩存uptime消息,同時(shí)避免時(shí)間窗口的多次消息沖突,導(dǎo)致信息被覆蓋。
異常排除
排除非物理機(jī),暫時(shí)不注意系統(tǒng)VM等產(chǎn)生的異常信息排除掉。
排除非業(yè)務(wù)狀態(tài)的機(jī)器,如安裝狀態(tài)中的機(jī)器,包括生產(chǎn)、維護(hù)、遷移、重新安裝、銷毀、重新啟動(dòng),只監(jiān)控正常狀態(tài)。
排除非正在工作的機(jī)器,如非working狀態(tài)機(jī)器。
排除網(wǎng)絡(luò)干擾
在停機(jī)分析中,由于網(wǎng)絡(luò)問題的干擾,更多的誤報(bào)無法準(zhǔn)確判斷物理機(jī)是否停機(jī),這可能是網(wǎng)絡(luò)問題。
排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常引起的誤報(bào),包括機(jī)房斷網(wǎng)演練、小面積網(wǎng)絡(luò)故障、上聯(lián)網(wǎng)絡(luò)故障。例如,使用一些邏輯來初步判斷網(wǎng)絡(luò)問題。
服務(wù)器本身的誤報(bào)不僅需要過濾網(wǎng)絡(luò)問題,還需要通過丟包數(shù)據(jù)分析過濾掉SA誤報(bào)問題,SA異常會(huì)報(bào)告心跳異常,誤解為停機(jī)。
icmp及tcp丟包分析,icmp采集頻率為固定秒,tcp收集頻率固定數(shù)秒,包括多個(gè)不同大小的包(16、32、64、128、256等)。),并根據(jù)分析時(shí)間窗口中兩個(gè)數(shù)據(jù)的包
排除特殊情況下的干擾
個(gè)別機(jī)房有時(shí)會(huì)出現(xiàn)大面積風(fēng)暴無故心跳異常,同時(shí)網(wǎng)絡(luò)ping包包異常,但上聯(lián)網(wǎng)設(shè)備ping包是正常的,這種誤報(bào)一般是基于具體情況case具體分析。例如,根據(jù)監(jiān)控每個(gè)機(jī)房的報(bào)告頻率,消除干擾。
進(jìn)一步識(shí)別誤報(bào)
到目前為止,大部分干擾已經(jīng)過濾掉,但仍有一些誤報(bào)隱藏在其中。比如心跳異常,ping異常,符合停機(jī)判斷的邏輯,會(huì)導(dǎo)致錯(cuò)誤判斷停機(jī),如網(wǎng)卡爆炸,或重試率高,這是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不異常,需要排除。再比如服務(wù)器沒有掛,但是IO延遲和資源占用率指標(biāo)異常。針對(duì)上述情況,增加uptime帶外日志的判斷和分析。
檢測(cè)停機(jī)時(shí)間點(diǎn)uptime確定是否重啟。
通過分析日志是否連續(xù),判斷日志是否重啟。
匹配日志重啟特征值,確認(rèn)是否重啟。
如果不能確定,則使用uptime重啟時(shí)間窗技術(shù)。
待處理仍不確定,進(jìn)入長尾處理清單。
再次處理長尾
未確認(rèn)待處理的,將加入長尾列表,如分鐘級(jí)心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機(jī),死到連網(wǎng)絡(luò)都不通的場景。會(huì)觀察一段時(shí)間,一個(gè)固定時(shí)間窗內(nèi)仍未恢復(fù)或重啟的話,就暫時(shí)報(bào)宕機(jī)。后期會(huì)把這種死機(jī)單獨(dú)找劃分歸類。
說了這么多,效果如何?
從準(zhǔn)確性和覆蓋率來看:
精度:目前發(fā)現(xiàn)的停機(jī)精度很高,可以區(qū)分真實(shí)停機(jī)或未停機(jī)。在判斷為停機(jī)的數(shù)據(jù)中,也有少量誤報(bào)。由于缺乏相關(guān)信息,這部分將進(jìn)一步優(yōu)化,誤報(bào)將逐步減少。新措施后,比例將接近0。
覆蓋率:目前統(tǒng)計(jì)的覆蓋率可以很好地支持日常停機(jī)處理,該數(shù)據(jù)具有足夠的特后,將進(jìn)一步改進(jìn)。
目前,停機(jī)感知是停機(jī)分析的基礎(chǔ)。通過服務(wù)器停機(jī)的實(shí)時(shí)檢測(cè),將整理出相應(yīng)的停機(jī)原因,明確具體原因,實(shí)現(xiàn)服務(wù)器的終極可靠性。
騰佑科技(m.mubashirfilms.com)成立于2009年,總部位于河南鄭州,是一家集互聯(lián)網(wǎng)基礎(chǔ)設(shè)施及軟硬件于一體化的高新技術(shù)企業(yè),具有IDC/ISP/ICP/云牌照、雙軟等資質(zhì),并擁有多個(gè)國家版權(quán)局認(rèn)證。公司自成立以來,一直致力于發(fā)展互聯(lián)網(wǎng)IDC數(shù)據(jù)中心DataCenter、云計(jì)算Cloud、大數(shù)據(jù)BigDate、人工智能AI、內(nèi)容加速CDN、互聯(lián)網(wǎng)安全、軟件定制開發(fā)等產(chǎn)品服務(wù)及行業(yè)客戶技術(shù)一體化智能解決方案;2018年成為百度智能云AI河南服務(wù)中心。
售前咨詢熱線:400-996-8756
備案提交:0371-89913068
售后客服:0371-89913000
搜索詞
熱門產(chǎn)品推薦