国产粉嫩无码不卡在线观看,酒店大战丝袜高跟鞋人妻,特级精品毛片免费观看,欧美亚洲日本国产综合在线

一文搞定項目故障等級劃分及管理機制「大元子說」

故障定義

1、影響功能正常使用的現(xiàn)象(服務中斷、服務質量下降),服務不能執(zhí)行規(guī)定功能的狀態(tài)

2、用戶反饋的大面積線上體驗問題

上述定義是理論層面的,實際工作中,會根據故障評分定級模型對線上問題進行分值定級考量,從五大維度進行評估:受影響業(yè)務功能、影響范圍、影響量級、影響時長和受影響業(yè)務個數(shù),根據維度對應的權重比例進行評分加權求和,分值大于40分的線上問題則定義為故障,線上問題一般通過以下方式獲?。焊黝惐O(jiān)控系統(tǒng)、全國運營POC反饋渠道、SSC對接群。

連鎖故障:由于正反饋循環(huán)(positive feeDBAck)導致的不斷擴大規(guī)模的故障。例如;某個服務的一個實例由于過載出現(xiàn)故障,導致其他實例負載升高,從而導致這些實例向多米諾骨牌一樣一個一個出現(xiàn)故障

故障級別

1.緊急故障A

  • 網絡、應用服務器、數(shù)據庫服務器宕機,造成EBS無法作業(yè)超過20分鐘。
  • 系統(tǒng)崩潰,用戶無法讀取數(shù)據超過20分鐘

2.嚴重故障B

  • EBS口傳遞數(shù)據錯誤或者緩慢,導致EBS業(yè)務無法使用超過1小時;
  • 與結算相關接口錯誤引起的重復付款,與賬務相關程序創(chuàng)建錯誤,賬務錯亂

3.一般故障C、D

  • 由于數(shù)據或者設置原因引起的會計科目創(chuàng)建不成功
  • 日記賬無法過賬
  • 請求運行緩慢,導致賬務延遲生產超過2小時

4.輕微故障E

  • 操作錯誤,職責應用不正確導致報表無法提取
  • 請求參數(shù)異常,提取數(shù)據正確
  • 報表錯誤或格式修改

一文搞定項目故障等級劃分及管理機制「大元子說」

故障報告字段

故障報告內容包含5個方面:故障描述、故障影響、故障原因、事件過程、改進措施;

涉及的主要字段如下:

故障現(xiàn)象

故障發(fā)生時的業(yè)務表現(xiàn)

故障時間

1、 發(fā)現(xiàn)時長(分)=故障報警(內外部用戶報障)-故障發(fā)生時間(大部分是上線/變更時間)原則上:如報警發(fā)現(xiàn),則幾乎為零。如果是用戶投訴,時間較長。針對超過5分鐘則單獨備注。

2、 故障組響應時長(分)=故障組響應時間-故障發(fā)現(xiàn)時間

3、 業(yè)務響應時長(分)=業(yè)務響應時間-故障發(fā)現(xiàn)時間

4、 根因定位時長(分)=根因定位時間-業(yè)務響應時間

5、 故障處理時長(分)=故障止損時間-業(yè)務響應時間

6、 故障持續(xù)時長(分)=服務影響時長(分)=故障止損時間-故障發(fā)生時間

7、 故障上報時長(分)=故障上報時間-發(fā)現(xiàn)時間

注:持續(xù)時長未超過5分鐘的線上問題不記為故障

發(fā)現(xiàn)方式

1、人工上報-用戶反饋,2、人工上報-內部反饋,3、監(jiān)控報警-故障組報障,4、監(jiān)控報警- RD發(fā)現(xiàn)

一文搞定項目故障等級劃分及管理機制「大元子說」

故障歸類

故障原因從三個角度進行描述

1、根本原因:導致故障發(fā)生的最本質原因,對故障起到關鍵作用、決定作用的原因

2、觸發(fā)原因:導致故障發(fā)生的導火線,直接誘發(fā)故障發(fā)生原因,或是什么動作造成故障的產生

3、延長原因:故障處理時長超過30min的原因

根據故障原因的不同,對根本原因和觸發(fā)原因進行歸類,類別如下:

6大類:變更類、容量/性能類、安全類、第三方、代碼類、設計類

18小類:有變更與無變更兩類

1、角色

變更類—運維變更(SRE)、網絡變更、數(shù)據庫變更(DBA)、配置變更、數(shù)據變更(業(yè)務)、上線/下線發(fā)布、上云變更(容器)、代碼變更

設計類—

非變更類—容量/性能類、安全類、第三方、代碼類、設計類

2、過程

變更:方案階段、測試階段、上線階段、驗收階段

無過程

3、細類

變更-方案階段-系統(tǒng)設計不合理

變更-方案階段-應急預案不足

變更-方案階段-服務混部不合理

變更-方案階段-方案評審不足

變更-方案階段-方案缺失

變更-方案階段-方案評審缺失

根本原因大類-小類

變更類-運維變更-線上誤操作

1、變更類-運維變更:因為運維變更(無論任何形式的變更)觸發(fā)的故障

2、變更類-線上誤操作:對線上環(huán)境進行誤刪除、kill之類的操作導致的故障

3、變更類-變更流程不規(guī)范:變更的流程存在隱患,有導致故障發(fā)生的風險;或變更本身流程無問題,進行變更時未按照流程進行

4、變更類-數(shù)據變更:業(yè)務方由于數(shù)據修改或者數(shù)據導入引發(fā)的故障,不包括運維的數(shù)據變更

5、變更類-配置變更:業(yè)務方由于修改配置(界面配置非配置文件)而導致的故障,除去運維類的配置變更類

6、容量/性能-非資源類:性能問題,可通過參數(shù)調整、邏輯優(yōu)化等措施避免

7、容量/性能-資源類:需資源擴容才可根治,或資源提供方使用不當導致的故障

8、代碼類-代碼邏輯類:代碼邏輯問題、代碼bug引發(fā)的故障

9、代碼類-代碼性能類:代碼不健壯

10、安全類-網絡爬蟲爬蟲導致的

11、安全類-Ddos攻擊:惡意攻擊系統(tǒng)

12、第三方-硬件故障:任何硬件非人為原因損壞 導致的故障

13、第三方-配置問題:第三方配置修改導致的

14、第三方-軟件故障:技術架構中用到的任何OS,軟件在特殊場景下,BUG被觸發(fā)導致故障;第三方提供的服務故障

15、第三方-局方故障:ISP,根域服務,IP被封等外部單位故障導致的問題(局方:運營商)

16、設計類-系統(tǒng)設計不合理:代碼不健壯,可以通過參數(shù)調整,邏輯優(yōu)化等措施避免

14、設計類-版本不兼容:系統(tǒng)底層架構不統(tǒng)一,在升級過程中或新版本與老版本不兼容導致問題出現(xiàn)

15、設計類-配置不當:配置有隱患,后期因其他因素觸發(fā)導致故障

16、設計類-應急預案不足:系統(tǒng)底層架構不統(tǒng)一,在升級過程中或新版本與老版本不兼容導致問題出現(xiàn)

17、設計類-服務混部不合理:服務混合部署不合理

18、設計類-技術方案評審不足:方案執(zhí)行前,評審不到位

觸發(fā)原因常見歸類:變更類、流量類或其他

故障級別

故障根據不同的分值劃分為A、B、C、D、E五個等級,其中

1、重大故障:故障級別為A級的故障,分值>85分

2、嚴重故障:故障級別為B級的故障,75分<分值≤85分

3、一般故障:故障級別為C、D級的故障,40分<分值≤75分

4、E級(<40分)不記為故障,只做一般問題記錄

責任部門

原則

1、依據根本原因和觸發(fā)原因劃分,

a、若因流量增加觸發(fā)故障,流量增加超過3倍(原來x,現(xiàn)在3x),追責觸發(fā)原因部門

2、責任部門盡量唯一,最多不超過2個

3、非qa直接導致的故障(如上線流程、上線工具等),不建議列入qa。對qa考核時,可參看其所負責的模塊故障情況

分類

根據根本原因分類,責任部門定義如下:

1、機器宕機、操作系統(tǒng)類故障——機器所在部門;

2、代碼bug類故障——代碼服務所在部門;

服務:WEB服務、數(shù)據庫服務、給應用系統(tǒng)提供的基礎服務等

3、應用系統(tǒng)類bug、系統(tǒng)使用第三方、開源軟件類bug——系統(tǒng)所在部門

4、變更類故障——變更方所在部門

5、第三方故障——追責引入第三方付費服務的部門,強依賴第三方服務部門無有效止損措施控制故障影響面的擴大,同樣追責

改進措施

在故障報告整理好后,我們會組織復盤會針對故障中出現(xiàn)的問題分析討論,從預防和治理的角度提出優(yōu)化方案

1、所提改進措施要對應到具體人,并明確完成時間

2、如果所提改進措施耗時較長,超過1個月則需進行拆分,按照時間階段記錄

3、改進措施任務類型:預防、流程、緩解、降級、演習、原因排查等

近期熱文:一文搞定項目故障等級劃分及管理機制【大元子說】

版權聲明:本文內容由互聯(lián)網用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 舉報,一經查實,本站將立刻刪除。