一文搞定項目故障等級劃分及管理機制「大元子說」
故障定義
1、影響功能正常使用的現(xiàn)象(服務中斷、服務質量下降),服務不能執(zhí)行規(guī)定功能的狀態(tài)
2、用戶反饋的大面積線上體驗問題
上述定義是理論層面的,實際工作中,會根據故障評分定級模型對線上問題進行分值定級考量,從五大維度進行評估:受影響業(yè)務功能、影響范圍、影響量級、影響時長和受影響業(yè)務個數(shù),根據維度對應的權重比例進行評分加權求和,分值大于40分的線上問題則定義為故障,線上問題一般通過以下方式獲?。焊黝惐O(jiān)控系統(tǒng)、全國運營POC反饋渠道、SSC對接群。
連鎖故障:由于正反饋循環(huán)(positive feeDBAck)導致的不斷擴大規(guī)模的故障。例如;某個服務的一個實例由于過載出現(xiàn)故障,導致其他實例負載升高,從而導致這些實例向多米諾骨牌一樣一個一個出現(xiàn)故障
故障級別
1.緊急故障A
- 網絡、應用服務器、數(shù)據庫服務器宕機,造成EBS無法作業(yè)超過20分鐘。
- 系統(tǒng)崩潰,用戶無法讀取數(shù)據超過20分鐘
2.嚴重故障B
- EBS口傳遞數(shù)據錯誤或者緩慢,導致EBS業(yè)務無法使用超過1小時;
- 與結算相關接口錯誤引起的重復付款,與賬務相關程序創(chuàng)建錯誤,賬務錯亂
3.一般故障C、D
- 由于數(shù)據或者設置原因引起的會計科目創(chuàng)建不成功
- 日記賬無法過賬
- 請求運行緩慢,導致賬務延遲生產超過2小時
4.輕微故障E
- 操作錯誤,職責應用不正確導致報表無法提取
- 請求參數(shù)異常,提取數(shù)據正確
- 報表錯誤或格式修改
故障報告字段
故障報告內容包含5個方面:故障描述、故障影響、故障原因、事件過程、改進措施;
涉及的主要字段如下:
故障現(xiàn)象
故障發(fā)生時的業(yè)務表現(xiàn)
故障時間
1、 發(fā)現(xiàn)時長(分)=故障報警(內外部用戶報障)-故障發(fā)生時間(大部分是上線/變更時間)原則上:如報警發(fā)現(xiàn),則幾乎為零。如果是用戶投訴,時間較長。針對超過5分鐘則單獨備注。
2、 故障組響應時長(分)=故障組響應時間-故障發(fā)現(xiàn)時間
3、 業(yè)務響應時長(分)=業(yè)務響應時間-故障發(fā)現(xiàn)時間
4、 根因定位時長(分)=根因定位時間-業(yè)務響應時間
5、 故障處理時長(分)=故障止損時間-業(yè)務響應時間
6、 故障持續(xù)時長(分)=服務影響時長(分)=故障止損時間-故障發(fā)生時間
7、 故障上報時長(分)=故障上報時間-發(fā)現(xiàn)時間
注:持續(xù)時長未超過5分鐘的線上問題不記為故障
發(fā)現(xiàn)方式
1、人工上報-用戶反饋,2、人工上報-內部反饋,3、監(jiān)控報警-故障組報障,4、監(jiān)控報警- RD發(fā)現(xiàn)
故障歸類
故障原因從三個角度進行描述
1、根本原因:導致故障發(fā)生的最本質原因,對故障起到關鍵作用、決定作用的原因
2、觸發(fā)原因:導致故障發(fā)生的導火線,直接誘發(fā)故障發(fā)生原因,或是什么動作造成故障的產生
3、延長原因:故障處理時長超過30min的原因
根據故障原因的不同,對根本原因和觸發(fā)原因進行歸類,類別如下:
6大類:變更類、容量/性能類、安全類、第三方、代碼類、設計類
18小類:有變更與無變更兩類
1、角色
變更類—運維變更(SRE)、網絡變更、數(shù)據庫變更(DBA)、配置變更、數(shù)據變更(業(yè)務)、上線/下線發(fā)布、上云變更(容器)、代碼變更
設計類—
非變更類—容量/性能類、安全類、第三方、代碼類、設計類
2、過程
變更:方案階段、測試階段、上線階段、驗收階段
無過程
3、細類
變更-方案階段-系統(tǒng)設計不合理
變更-方案階段-應急預案不足
變更-方案階段-服務混部不合理
變更-方案階段-方案評審不足
變更-方案階段-方案缺失
變更-方案階段-方案評審缺失
根本原因大類-小類
變更類-運維變更-線上誤操作
1、變更類-運維變更:因為運維變更(無論任何形式的變更)觸發(fā)的故障
2、變更類-線上誤操作:對線上環(huán)境進行誤刪除、kill之類的操作導致的故障
3、變更類-變更流程不規(guī)范:變更的流程存在隱患,有導致故障發(fā)生的風險;或變更本身流程無問題,進行變更時未按照流程進行
4、變更類-數(shù)據變更:業(yè)務方由于數(shù)據修改或者數(shù)據導入引發(fā)的故障,不包括運維的數(shù)據變更
5、變更類-配置變更:業(yè)務方由于修改配置(界面配置非配置文件)而導致的故障,除去運維類的配置變更類
6、容量/性能-非資源類:性能問題,可通過參數(shù)調整、邏輯優(yōu)化等措施避免
7、容量/性能-資源類:需資源擴容才可根治,或資源提供方使用不當導致的故障
8、代碼類-代碼邏輯類:代碼邏輯問題、代碼bug引發(fā)的故障
9、代碼類-代碼性能類:代碼不健壯
10、安全類-網絡爬蟲:爬蟲導致的
11、安全類-Ddos攻擊:惡意攻擊系統(tǒng)
12、第三方-硬件故障:任何硬件非人為原因損壞 導致的故障
13、第三方-配置問題:第三方配置修改導致的
14、第三方-軟件故障:技術架構中用到的任何OS,軟件在特殊場景下,BUG被觸發(fā)導致故障;第三方提供的服務故障
15、第三方-局方故障:ISP,根域服務,IP被封等外部單位故障導致的問題(局方:運營商)
16、設計類-系統(tǒng)設計不合理:代碼不健壯,可以通過參數(shù)調整,邏輯優(yōu)化等措施避免
14、設計類-版本不兼容:系統(tǒng)底層架構不統(tǒng)一,在升級過程中或新版本與老版本不兼容導致問題出現(xiàn)
15、設計類-配置不當:配置有隱患,后期因其他因素觸發(fā)導致故障
16、設計類-應急預案不足:系統(tǒng)底層架構不統(tǒng)一,在升級過程中或新版本與老版本不兼容導致問題出現(xiàn)
17、設計類-服務混部不合理:服務混合部署不合理
18、設計類-技術方案評審不足:方案執(zhí)行前,評審不到位
觸發(fā)原因常見歸類:變更類、流量類或其他
故障級別
故障根據不同的分值劃分為A、B、C、D、E五個等級,其中
1、重大故障:故障級別為A級的故障,分值>85分
2、嚴重故障:故障級別為B級的故障,75分<分值≤85分
3、一般故障:故障級別為C、D級的故障,40分<分值≤75分
4、E級(<40分)不記為故障,只做一般問題記錄
責任部門
原則
1、依據根本原因和觸發(fā)原因劃分,
a、若因流量增加觸發(fā)故障,流量增加超過3倍(原來x,現(xiàn)在3x),追責觸發(fā)原因部門
2、責任部門盡量唯一,最多不超過2個
3、非qa直接導致的故障(如上線流程、上線工具等),不建議列入qa。對qa考核時,可參看其所負責的模塊故障情況
分類
根據根本原因分類,責任部門定義如下:
1、機器宕機、操作系統(tǒng)類故障——機器所在部門;
2、代碼bug類故障——代碼服務所在部門;
服務:WEB服務、數(shù)據庫服務、給應用系統(tǒng)提供的基礎服務等
3、應用系統(tǒng)類bug、系統(tǒng)使用第三方、開源軟件類bug——系統(tǒng)所在部門
4、變更類故障——變更方所在部門
5、第三方故障——追責引入第三方付費服務的部門,強依賴第三方服務部門無有效止損措施控制故障影響面的擴大,同樣追責
改進措施
在故障報告整理好后,我們會組織復盤會針對故障中出現(xiàn)的問題分析討論,從預防和治理的角度提出優(yōu)化方案
1、所提改進措施要對應到具體人,并明確完成時間
2、如果所提改進措施耗時較長,超過1個月則需進行拆分,按照時間階段記錄
3、改進措施任務類型:預防、流程、緩解、降級、演習、原因排查等
版權聲明:本文內容由互聯(lián)網用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 舉報,一經查實,本站將立刻刪除。