MTTF、MTBF、MTTR、MTTD 是四個維護管理常見的時間指標,單看 MTBF 跟 MTTF 的中文翻譯詞真是各自表述、莫衷一是,讓人一頭霧水。就讓我們先從原文看起(以下中文採用網上常見的技術用語,而非翻譯):
MTTF — Mean Time To Failure. 平均故障時間
MTBF — Mean Time Between Failure. 平均無故障時間
MTTR — Mean Time To Repair. 平均維修時間
MTTD — Mean Time To Detection. 平均檢測時間
簡單說明一下各別的定義:
MTTF 平均故障時間
用來衡量「不可修復的設備」從設備開始運行到發生故障的平均時間。
計算公式為:MTTF = 總設備運行時間÷設備數
白話說,就是拿 10 台相同的電扇開著吹,一直到 10 台陸續都壞了,將 10 台總運行時數除以 10。
MTBF 平均無故障時間
用來衡量「可修復的設備」在兩次故障之間的平均時間。
計算公式為:MTBF = 運營小時數÷故障次數
簡言之,就是再拿那 10 台電扇,在夠長的期間內記錄電扇總運行時數,以及發生故障的次數,最後用「總運行時數」除以「故障次數」就會獲得MTBF 的小時數。這段期間電扇可能會發生故障,然經過維修再繼續運轉,所以 MTBF 的時數包含了中間維修所花的時間。
MTTR 平均維修時間
用來衡量修復資產所需的平均時間。
計算公式為:MTTR = 總停機時數 (也有說總維護時間)÷故障發生次數
這是用來評量當設備故障時,平均多久可以修復上線。這個時間越長,停機的損失就越大。影響 MTTR 的因素就更廣泛了,包含非設備本身的因素,例如人員素質、備品管理等。也因此 MTTR 在 IT 系統管理上是重要的管理指標,用以評估系統在面對威脅時,可以多快完成回應。
MTTD 平均檢測時間
用來衡量設備可以被識別到故障跡象的平均時間,也就是 P-F 曲線 的 P 點,在發現故障跡象之後設備並不會立刻停擺,還可以運行一段時間。
計算公式為:MTTD = 設備運行時間÷在這期間被發現的故障徵兆數
在軟體的世界中,MTTD 也是獲得比硬體維護更廣泛的注重,是用來衡量當系統有一個錯誤或漏洞時,平均多久才能被偵測發現。
在複雜的設備維護世界裏:
有的設備是等到壞了才換。
有的設備是用到壞了再修。
有的設備是不論有沒有故障,時間到了都會更換零件;
但運氣不好的會在更換之前就壞了。有的設備是透過檢測,發現故障症狀就提前修繕;
不幸的是,有可能沒有發現症狀、發現徵兆但為時已晚、備件管理問題,或人謀不臧等等因素,導致最後還是故障了。更有可能是,根本還不知道那就是徵兆。
了解了如此多種的變因,是否能明白為什麼維護管理的時間指標這麼多種、這麼難計算了。