一文搞定項(xiàng)目故障等級(jí)劃分及管理機(jī)制「大元子說(shuō)」
故障定義
1、影響功能正常使用的現(xiàn)象(服務(wù)中斷、服務(wù)質(zhì)量下降),服務(wù)不能執(zhí)行規(guī)定功能的狀態(tài)
2、用戶反饋的大面積線上體驗(yàn)問(wèn)題
上述定義是理論層面的,實(shí)際工作中,會(huì)根據(jù)故障評(píng)分定級(jí)模型對(duì)線上問(wèn)題進(jìn)行分值定級(jí)考量,從五大維度進(jìn)行評(píng)估:受影響業(yè)務(wù)功能、影響范圍、影響量級(jí)、影響時(shí)長(zhǎng)和受影響業(yè)務(wù)個(gè)數(shù),根據(jù)維度對(duì)應(yīng)的權(quán)重比例進(jìn)行評(píng)分加權(quán)求和,分值大于40分的線上問(wèn)題則定義為故障,線上問(wèn)題一般通過(guò)以下方式獲?。焊黝惐O(jiān)控系統(tǒng)、全國(guó)運(yùn)營(yíng)POC反饋渠道、SSC對(duì)接群。
連鎖故障:由于正反饋循環(huán)(positive feeDBAck)導(dǎo)致的不斷擴(kuò)大規(guī)模的故障。例如;某個(gè)服務(wù)的一個(gè)實(shí)例由于過(guò)載出現(xiàn)故障,導(dǎo)致其他實(shí)例負(fù)載升高,從而導(dǎo)致這些實(shí)例向多米諾骨牌一樣一個(gè)一個(gè)出現(xiàn)故障
故障級(jí)別
1.緊急故障A
- 網(wǎng)絡(luò)、應(yīng)用服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器宕機(jī),造成EBS無(wú)法作業(yè)超過(guò)20分鐘。
- 系統(tǒng)崩潰,用戶無(wú)法讀取數(shù)據(jù)超過(guò)20分鐘
2.嚴(yán)重故障B
- EBS口傳遞數(shù)據(jù)錯(cuò)誤或者緩慢,導(dǎo)致EBS業(yè)務(wù)無(wú)法使用超過(guò)1小時(shí);
- 與結(jié)算相關(guān)接口錯(cuò)誤引起的重復(fù)付款,與賬務(wù)相關(guān)程序創(chuàng)建錯(cuò)誤,賬務(wù)錯(cuò)亂
3.一般故障C、D
- 由于數(shù)據(jù)或者設(shè)置原因引起的會(huì)計(jì)科目創(chuàng)建不成功
- 日記賬無(wú)法過(guò)賬
- 請(qǐng)求運(yùn)行緩慢,導(dǎo)致賬務(wù)延遲生產(chǎn)超過(guò)2小時(shí)
4.輕微故障E
- 操作錯(cuò)誤,職責(zé)應(yīng)用不正確導(dǎo)致報(bào)表無(wú)法提取
- 請(qǐng)求參數(shù)異常,提取數(shù)據(jù)正確
- 報(bào)表錯(cuò)誤或格式修改
故障報(bào)告字段
故障報(bào)告內(nèi)容包含5個(gè)方面:故障描述、故障影響、故障原因、事件過(guò)程、改進(jìn)措施;
涉及的主要字段如下:
故障現(xiàn)象
故障發(fā)生時(shí)的業(yè)務(wù)表現(xiàn)
故障時(shí)間
1、 發(fā)現(xiàn)時(shí)長(zhǎng)(分)=故障報(bào)警(內(nèi)外部用戶報(bào)障)-故障發(fā)生時(shí)間(大部分是上線/變更時(shí)間)原則上:如報(bào)警發(fā)現(xiàn),則幾乎為零。如果是用戶投訴,時(shí)間較長(zhǎng)。針對(duì)超過(guò)5分鐘則單獨(dú)備注。
2、 故障組響應(yīng)時(shí)長(zhǎng)(分)=故障組響應(yīng)時(shí)間-故障發(fā)現(xiàn)時(shí)間
3、 業(yè)務(wù)響應(yīng)時(shí)長(zhǎng)(分)=業(yè)務(wù)響應(yīng)時(shí)間-故障發(fā)現(xiàn)時(shí)間
4、 根因定位時(shí)長(zhǎng)(分)=根因定位時(shí)間-業(yè)務(wù)響應(yīng)時(shí)間
5、 故障處理時(shí)長(zhǎng)(分)=故障止損時(shí)間-業(yè)務(wù)響應(yīng)時(shí)間
6、 故障持續(xù)時(shí)長(zhǎng)(分)=服務(wù)影響時(shí)長(zhǎng)(分)=故障止損時(shí)間-故障發(fā)生時(shí)間
7、 故障上報(bào)時(shí)長(zhǎng)(分)=故障上報(bào)時(shí)間-發(fā)現(xiàn)時(shí)間
注:持續(xù)時(shí)長(zhǎng)未超過(guò)5分鐘的線上問(wèn)題不記為故障
發(fā)現(xiàn)方式
1、人工上報(bào)-用戶反饋,2、人工上報(bào)-內(nèi)部反饋,3、監(jiān)控報(bào)警-故障組報(bào)障,4、監(jiān)控報(bào)警- RD發(fā)現(xiàn)
故障歸類
故障原因從三個(gè)角度進(jìn)行描述
1、根本原因:導(dǎo)致故障發(fā)生的最本質(zhì)原因,對(duì)故障起到關(guān)鍵作用、決定作用的原因
2、觸發(fā)原因:導(dǎo)致故障發(fā)生的導(dǎo)火線,直接誘發(fā)故障發(fā)生原因,或是什么動(dòng)作造成故障的產(chǎn)生
3、延長(zhǎng)原因:故障處理時(shí)長(zhǎng)超過(guò)30min的原因
根據(jù)故障原因的不同,對(duì)根本原因和觸發(fā)原因進(jìn)行歸類,類別如下:
6大類:變更類、容量/性能類、安全類、第三方、代碼類、設(shè)計(jì)類
18小類:有變更與無(wú)變更兩類
1、角色
變更類—運(yùn)維變更(SRE)、網(wǎng)絡(luò)變更、數(shù)據(jù)庫(kù)變更(DBA)、配置變更、數(shù)據(jù)變更(業(yè)務(wù))、上線/下線發(fā)布、上云變更(容器)、代碼變更
設(shè)計(jì)類—
非變更類—容量/性能類、安全類、第三方、代碼類、設(shè)計(jì)類
2、過(guò)程
變更:方案階段、測(cè)試階段、上線階段、驗(yàn)收階段
無(wú)過(guò)程
3、細(xì)類
變更-方案階段-系統(tǒng)設(shè)計(jì)不合理
變更-方案階段-應(yīng)急預(yù)案不足
變更-方案階段-服務(wù)混部不合理
變更-方案階段-方案評(píng)審不足
變更-方案階段-方案缺失
變更-方案階段-方案評(píng)審缺失
根本原因大類-小類
變更類-運(yùn)維變更-線上誤操作
1、變更類-運(yùn)維變更:因?yàn)檫\(yùn)維變更(無(wú)論任何形式的變更)觸發(fā)的故障
2、變更類-線上誤操作:對(duì)線上環(huán)境進(jìn)行誤刪除、kill之類的操作導(dǎo)致的故障
3、變更類-變更流程不規(guī)范:變更的流程存在隱患,有導(dǎo)致故障發(fā)生的風(fēng)險(xiǎn);或變更本身流程無(wú)問(wèn)題,進(jìn)行變更時(shí)未按照流程進(jìn)行
4、變更類-數(shù)據(jù)變更:業(yè)務(wù)方由于數(shù)據(jù)修改或者數(shù)據(jù)導(dǎo)入引發(fā)的故障,不包括運(yùn)維的數(shù)據(jù)變更
5、變更類-配置變更:業(yè)務(wù)方由于修改配置(界面配置非配置文件)而導(dǎo)致的故障,除去運(yùn)維類的配置變更類
6、容量/性能-非資源類:性能問(wèn)題,可通過(guò)參數(shù)調(diào)整、邏輯優(yōu)化等措施避免
7、容量/性能-資源類:需資源擴(kuò)容才可根治,或資源提供方使用不當(dāng)導(dǎo)致的故障
8、代碼類-代碼邏輯類:代碼邏輯問(wèn)題、代碼bug引發(fā)的故障
9、代碼類-代碼性能類:代碼不健壯
10、安全類-網(wǎng)絡(luò)爬蟲(chóng):爬蟲(chóng)導(dǎo)致的
11、安全類-Ddos攻擊:惡意攻擊系統(tǒng)
12、第三方-硬件故障:任何硬件非人為原因損壞 導(dǎo)致的故障
13、第三方-配置問(wèn)題:第三方配置修改導(dǎo)致的
14、第三方-軟件故障:技術(shù)架構(gòu)中用到的任何OS,軟件在特殊場(chǎng)景下,BUG被觸發(fā)導(dǎo)致故障;第三方提供的服務(wù)故障
15、第三方-局方故障:ISP,根域服務(wù),IP被封等外部單位故障導(dǎo)致的問(wèn)題(局方:運(yùn)營(yíng)商)
16、設(shè)計(jì)類-系統(tǒng)設(shè)計(jì)不合理:代碼不健壯,可以通過(guò)參數(shù)調(diào)整,邏輯優(yōu)化等措施避免
14、設(shè)計(jì)類-版本不兼容:系統(tǒng)底層架構(gòu)不統(tǒng)一,在升級(jí)過(guò)程中或新版本與老版本不兼容導(dǎo)致問(wèn)題出現(xiàn)
15、設(shè)計(jì)類-配置不當(dāng):配置有隱患,后期因其他因素觸發(fā)導(dǎo)致故障
16、設(shè)計(jì)類-應(yīng)急預(yù)案不足:系統(tǒng)底層架構(gòu)不統(tǒng)一,在升級(jí)過(guò)程中或新版本與老版本不兼容導(dǎo)致問(wèn)題出現(xiàn)
17、設(shè)計(jì)類-服務(wù)混部不合理:服務(wù)混合部署不合理
18、設(shè)計(jì)類-技術(shù)方案評(píng)審不足:方案執(zhí)行前,評(píng)審不到位
觸發(fā)原因常見(jiàn)歸類:變更類、流量類或其他
故障級(jí)別
故障根據(jù)不同的分值劃分為A、B、C、D、E五個(gè)等級(jí),其中
1、重大故障:故障級(jí)別為A級(jí)的故障,分值>85分
2、嚴(yán)重故障:故障級(jí)別為B級(jí)的故障,75分<分值≤85分
3、一般故障:故障級(jí)別為C、D級(jí)的故障,40分<分值≤75分
4、E級(jí)(<40分)不記為故障,只做一般問(wèn)題記錄
責(zé)任部門
原則
1、依據(jù)根本原因和觸發(fā)原因劃分,
a、若因流量增加觸發(fā)故障,流量增加超過(guò)3倍(原來(lái)x,現(xiàn)在3x),追責(zé)觸發(fā)原因部門
2、責(zé)任部門盡量唯一,最多不超過(guò)2個(gè)
3、非qa直接導(dǎo)致的故障(如上線流程、上線工具等),不建議列入qa。對(duì)qa考核時(shí),可參看其所負(fù)責(zé)的模塊故障情況
分類
根據(jù)根本原因分類,責(zé)任部門定義如下:
1、機(jī)器宕機(jī)、操作系統(tǒng)類故障——機(jī)器所在部門;
2、代碼bug類故障——代碼服務(wù)所在部門;
服務(wù):WEB服務(wù)、數(shù)據(jù)庫(kù)服務(wù)、給應(yīng)用系統(tǒng)提供的基礎(chǔ)服務(wù)等
3、應(yīng)用系統(tǒng)類bug、系統(tǒng)使用第三方、開(kāi)源軟件類bug——系統(tǒng)所在部門
4、變更類故障——變更方所在部門
5、第三方故障——追責(zé)引入第三方付費(fèi)服務(wù)的部門,強(qiáng)依賴第三方服務(wù)部門無(wú)有效止損措施控制故障影響面的擴(kuò)大,同樣追責(zé)
改進(jìn)措施
在故障報(bào)告整理好后,我們會(huì)組織復(fù)盤會(huì)針對(duì)故障中出現(xiàn)的問(wèn)題分析討論,從預(yù)防和治理的角度提出優(yōu)化方案
1、所提改進(jìn)措施要對(duì)應(yīng)到具體人,并明確完成時(shí)間
2、如果所提改進(jìn)措施耗時(shí)較長(zhǎng),超過(guò)1個(gè)月則需進(jìn)行拆分,按照時(shí)間階段記錄
3、改進(jìn)措施任務(wù)類型:預(yù)防、流程、緩解、降級(jí)、演習(xí)、原因排查等
近期熱文:一文搞定項(xiàng)目故障等級(jí)劃分及管理機(jī)制【大元子說(shuō)】
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。