在當(dāng)今永不停機(jī)的世界中,中斷和技術(shù)事件比以往任何時候都更加重要。故障和停機(jī)期間會帶來現(xiàn)實(shí)后果,錯過截止時間、付款逾期、項目延遲。
這就是為什么公司必須量化和跟蹤有關(guān)正常運(yùn)行時間、停機(jī)期間以及團(tuán)隊解決問題的速度和有效性的指標(biāo)。
業(yè)界最常跟蹤的一些指標(biāo)包括 MTBF(故障前平均時間)、MTTR(平均恢復(fù)、修復(fù)、響應(yīng)或解決時間)、MTTF(平均故障時間)和 MTTA(平均確認(rèn)時間),這一系列指標(biāo)旨在幫助技術(shù)團(tuán)隊了解事件發(fā)生的頻率以及團(tuán)隊從這些事件中恢復(fù)的速度。
許多專家認(rèn)為,這些指標(biāo)本身其實(shí)沒有那么有用,因為它們不會問一些更難的問題,比如如何解決事件、哪些有效、哪些無效,以及問題升級或降級的方式、時間和原因。
另一方面,MTTR、MTBF 和 MTTF 可以作為良好的基線或基準(zhǔn),啟動對話,引發(fā)更深層次的重要問題。
關(guān)于 MTTR 的免責(zé)聲明
我們在談?wù)?MTTR 時,很容易假設(shè)它是一個含義單一的指標(biāo)。但事實(shí)是,它可能代表了四種不同的衡量標(biāo)準(zhǔn)。R 可以代表修復(fù)、恢復(fù)、響應(yīng)或解決,雖然這四個指標(biāo)確實(shí)重疊,但它們都有自己的含義和細(xì)微差別。
因此,如果您的團(tuán)隊正在談?wù)摳?MTTR,最好弄清楚他們在說哪個 MTTR 以及他們是如何定義的。在您開始跟蹤成功和失敗之前,您的團(tuán)隊需要同步了解您正在跟蹤的內(nèi)容,并確保每個人都知道他們在說同樣的事情。
MTBF:平均故障間隔時間
平均故障間隔時間是多少?
MTBF(平均故障間隔時間)是技術(shù)產(chǎn)品兩次可修復(fù)故障之間的平均時間。該指標(biāo)用于跟蹤產(chǎn)品的可用性和可靠性。兩次故障之間的時間越長,系統(tǒng)就越可靠。
大多數(shù)公司的目標(biāo)是盡可能保持較高的 MTBF,兩次問題之間間隔數(shù)十萬小時(甚至數(shù)百萬小時)。
如何計算平均故障間隔時間
MTBF 是使用算術(shù)平均值計算的?;旧希@意味著從您要計算的時間段(可能是六個月、一年、也許五年)中提取數(shù)據(jù),然后將該時段的總運(yùn)行時間除以故障次數(shù)。
因此,假設(shè)我們評估的是 24 小時的時間段,在兩次不同的事件中有兩個小時的停機(jī)期間。我們的總正常運(yùn)行時間為 22 小時。除以二,等于 11 個小時。所以我們的 MTBF 是 11 個小時。
由于該指標(biāo)用于跟蹤可靠性,因此 MTBF 不考慮定期維護(hù)期間的預(yù)期停機(jī)時間。相反,它側(cè)重于意外的中斷和問題。
平均故障間隔時間的起源
MTBF 來自航空業(yè),在該行業(yè),系統(tǒng)故障不僅會導(dǎo)致高昂的成本,甚至還會危及人的生命。從那以后,這種首字母縮略語已遍及各種技術(shù)和機(jī)械行業(yè),尤其是經(jīng)常用于制造業(yè)。
如何以及何時使用平均故障間隔時間
MTBF 對于想要確保獲得最可靠的產(chǎn)品、駕駛最可靠的飛機(jī)或為工廠選擇最安全的制造設(shè)備的買家很有幫助。
對于內(nèi)部團(tuán)隊而言,它是一種有助于確定問題和跟蹤成功與失敗的指標(biāo)。它還可以幫助公司就客戶何時應(yīng)該更換部件、升級系統(tǒng)或維護(hù)產(chǎn)品提出明智的建議。
MTBF 是衡量可修復(fù)系統(tǒng)故障的指標(biāo)。對于需要更換系統(tǒng)的故障,人們通常使用術(shù)語 MTTF(平均故障時間)。
例如,汽車發(fā)動機(jī)。計算發(fā)動機(jī)計劃外維護(hù)之間的時間時,應(yīng)使用 MTBF(平均故障間隔時間)。計算更換整臺發(fā)動機(jī)之間的時間時,應(yīng)使用 MTTF(平均故障時間)。
MTTR:平均修復(fù)時間
平均修復(fù)時間是多少?
MTTR(平均修復(fù)時間)是修復(fù)系統(tǒng)(通常是技術(shù)或機(jī)械)所需的平均時間。這包括修復(fù)時間和任何測試時間。直到系統(tǒng)恢復(fù)完全正常運(yùn)行,此指標(biāo)才會停止計時。
如何計算平均修復(fù)時間
您可以通過將任何給定時間段內(nèi)的總修復(fù)時間相加,然后將該時間除以修復(fù)次數(shù)來計算 MTTR。
因此,假設(shè)我們正在考慮一周內(nèi)的修復(fù)。在這段時間里,發(fā)生了十次中斷,系統(tǒng)修復(fù)花了四個小時。四小時等于 240 分鐘。240 除以 10 等于 24。這意味著在這種情況下,平均修復(fù)時間為 24 分鐘。
平均修復(fù)時間的限制
平均修復(fù)時間并不總是與系統(tǒng)中斷本身的時間相同。某些情況下,修復(fù)會在產(chǎn)品故障或系統(tǒng)中斷后的幾分鐘內(nèi)開始。在其他情況下,在問題出現(xiàn)、檢測到問題和開始修復(fù)之間會有一段時間間隔。
此指標(biāo)在跟蹤維護(hù)人員修復(fù)問題的速度時最有用。它并不是要識別系統(tǒng)警報問題或修復(fù)前延遲,這兩者也是評估事件管理計劃成敗的重要因素。
如何以及何時使用平均修復(fù)時間
MTTR(平均恢復(fù)時間)是支持和維護(hù)團(tuán)隊用來保持維修按計劃進(jìn)行的一項指標(biāo)。目標(biāo)是通過提高維修流程和團(tuán)隊的效率來盡可能降低這個數(shù)字。
MTTR:平均恢復(fù)時間
平均恢復(fù)時間是多少?
MTTR(平均恢復(fù)時間)是從產(chǎn)品或系統(tǒng)故障中恢復(fù)所需的平均時間。這包括整個中斷時間——從系統(tǒng)或產(chǎn)品出現(xiàn)故障到其恢復(fù)完全運(yùn)行為止。
如何計算平均恢復(fù)時間
平均恢復(fù)時間是通過將特定時間段內(nèi)的所有停機(jī)期間相加并除以事件數(shù)來計算的。因此,假設(shè)我們的系統(tǒng) 24 小時內(nèi)在兩次不同的事件中停機(jī)了 30 分鐘。30 除以二等于 15,所以我們的 MTTR 是 15 分鐘。
平均恢復(fù)時間的限制
此 MTTR 用于衡量您的完整恢復(fù)流程的速度。它有您想要的那么快嗎?它與您的競爭對手相比如何?
這是一個高級指標(biāo),可幫助您確定是否有問題。但是,如果您想診斷問題出在流程的哪里(是您的警報系統(tǒng)有問題嗎?團(tuán)隊在修復(fù)上花了太長時間嗎?有人響應(yīng)修復(fù)請求的時間太長嗎?),您將需要更多的數(shù)據(jù)。因為故障和恢復(fù)之間會發(fā)生很多事。
問題可能出在您的警報系統(tǒng)上。故障和警報之間有延遲嗎?警報發(fā)送給正確人員所需的時間是否超過了應(yīng)有的時間?
問題可能出在診斷上。您能很快弄清楚問題出在哪里嗎?有沒有可以改進(jìn)的流程?
或者問題可能出在修復(fù)上。您的維護(hù)團(tuán)隊是否盡其所能?如果他們占用了大部分時間,是什么難住了他們?
您需要比 MTTR 更深入地研究才能回答這些問題,但平均恢復(fù)時間可以為診斷恢復(fù)流程是否存在需要您更深入研究的問題提供一個出發(fā)點(diǎn)。
如何以及何時使用平均恢復(fù)時間
MTTR 指標(biāo)非常適合評估整體恢復(fù)流程的速度。
MTTR:平均解決時間
平均解決時間是多少?
MTTR(平均解決時間)是完全解決故障所需的平均時間。這不僅包括檢測故障、診斷問題和修復(fù)問題所花費(fèi)的時間,還包括確保故障不會再次發(fā)生所花費(fèi)的時間。
該指標(biāo)將處理修復(fù)的團(tuán)隊的責(zé)任擴(kuò)展到長期提高績效。這是滅火與滅火然后對房屋進(jìn)行采取防火措施之間的區(qū)別。
這個 MTTR 與客戶滿意度之間有很強(qiáng)的相關(guān)性,因此需要重點(diǎn)注意。
如何計算平均解決時間
要計算此 MTTR,請將要跟蹤的時間段內(nèi)的完整解決時間相加,然后除以事件數(shù)。
因此,如果您的系統(tǒng) 24 小時內(nèi)在單個事件中共停機(jī)了兩個小時,而團(tuán)隊又花了兩個小時進(jìn)行修復(fù)以確保系統(tǒng)中斷不會再次發(fā)生,那么解決問題總共花了四個小時。這意味著您的 MTTR 是四個小時。
關(guān)于跟蹤平均解決時間的說明
請記住,MTTR 通常是使用工作時間計算的(因此,如果您有一天在工作時間結(jié)束時從問題中恢復(fù)過來,第二天早上第一時間花時間修復(fù)潛在問題,那么您的 MTTR 將不包括離開辦公室的 16 個小時)。如果您有多個地點(diǎn)的團(tuán)隊全天候工作,或者您的待命員工在下班后工作,那么定義如何跟蹤這個指標(biāo)的時間很重要。
如何以及何時使用平均解決時間
MTTR 通常用于討論計劃外事件,而不是服務(wù)請求(通常是計劃內(nèi)的)。
MTTR:平均響應(yīng)時間
平均響應(yīng)時間是多少?
MTTR(平均響應(yīng)時間)是從首次收到產(chǎn)品或系統(tǒng)故障警報開始,到從產(chǎn)品或系統(tǒng)故障中恢復(fù)所需的平均時間。這不包括警報系統(tǒng)中的任何延遲時間。
如何計算平均響應(yīng)時間
要計算此 MTTR,請將從警報到產(chǎn)品或服務(wù)完全恢復(fù)正常運(yùn)行時的全部響應(yīng)時間相加。然后除以事件數(shù)。
例如:如果您在一周 40 個小時的工作時間內(nèi)發(fā)生了四起事件,并且在這些事件上總共花費(fèi)了一個小時(從警報到修復(fù)),則該周的 MTTR 為 15 分鐘。
如何以及何時使用平均響應(yīng)時間
在衡量團(tuán)隊在抵御系統(tǒng)攻擊方面的成功時,通常將此 MTTR 用于網(wǎng)絡(luò)安全。
MTTA:平均確認(rèn)時間
平均確認(rèn)間隔時間是多少?
MTTA(平均確認(rèn)時間)是從觸發(fā)警報到開始處理問題所花費(fèi)的平均時間。此指標(biāo)可用于跟蹤團(tuán)隊的響應(yīng)能力和警報系統(tǒng)的有效性。
如何計算平均確認(rèn)時間
要計算您的 MTTA,請將警報和確認(rèn)之間的時間相加,然后除以事件數(shù)。
例如:如果您有 10 個事件,而所有 10 個事件的警報和確認(rèn)之間總共有 40 分鐘,則將 40 除以 10 得出平均值 4 分鐘。
如何以及何時使用平均確認(rèn)時間
MTTA 在跟蹤響應(yīng)速度方面很有用。您的團(tuán)隊是否受警報疲勞困擾并且響應(yīng)時間過長?此指標(biāo)將幫助您標(biāo)記問題。
MTTF:平均故障時間
平均故障時間是多少?
MTTF(平均故障時間)是技術(shù)產(chǎn)品兩次不可修復(fù)得故障之間的平均時間。例如,如果 X 品牌的汽車發(fā)動機(jī)在完全失效且必須更換之前平均為 500,000 小時,則發(fā)動機(jī)的 MTTF 將達(dá)為 500,000。
該計算用于了解系統(tǒng)通常會持續(xù)多長時間,確定新版本的系統(tǒng)性能是否優(yōu)于舊版本,并向客戶提供有關(guān)預(yù)期使用壽命以及何時安排系統(tǒng)檢查的信息。
如何計算平均故障時間
平均故障時間是算術(shù)平均值,因此您可以通過將正在評估的產(chǎn)品的總運(yùn)行時間相加,然后將該總運(yùn)行時間除以設(shè)備數(shù)量來計算。
例如:假設(shè)您在計算燈泡的 MTTF。Y 品牌的燈泡在燒壞之前平均能持續(xù)多長時間?假設(shè)您有四個燈泡的樣本需要測試(如果您想要具有統(tǒng)計學(xué)意義的數(shù)據(jù),那您需要的遠(yuǎn)不止于此,但為了簡單的數(shù)學(xué)目的,我們保持這個小值)。
燈泡 A 持續(xù) 20 個小時。燈泡 B 持續(xù) 18 個小時。燈泡 C 持續(xù) 21 個小時。燈泡 D 持續(xù) 21 個小時??偣?80 個小時。除以四,MTTF 為 20 個小時。
平均故障時間問題
通過燈泡這種例子可以看出,MTTF 是一個很有意義的指標(biāo)。我們可以運(yùn)行燈泡直到最后一個燈泡出現(xiàn)故障,然后利用這些信息得出關(guān)于燈泡彈性的結(jié)論。
但是,當(dāng)我們測量那些不會很快出現(xiàn)故障的東西時會發(fā)生什么?那些本來可以使用很多年的東西。對于這些情況,盡管經(jīng)常使用 MTTF,但它并不是一個很好的指標(biāo)。因為在大多數(shù)情況下,我們不是在產(chǎn)品出現(xiàn)故障之前一直運(yùn)行產(chǎn)品,而是要在規(guī)定的時間長度內(nèi)運(yùn)行產(chǎn)品,并測量有多少產(chǎn)品出現(xiàn)故障。
例如:假設(shè)我們正在嘗試獲取 Z 品牌平板電腦上的 MTTF 統(tǒng)計數(shù)據(jù)。希望平板電腦能用很多年。但是 Z 品牌可能只有六個月時間來收集數(shù)據(jù)。因此,他們對 100 臺平板電腦進(jìn)行了六個月的測試。假設(shè)一臺平板電腦恰好在六個月期限出現(xiàn)故障。
因此,我們計算總使用時間(六個月乘以 100臺平板電腦),得出 600 個月。只有一臺平板電腦出現(xiàn)故障,所以我們將其除以一,那么我們的 MTTR 將為 600 個月,也就是 50 年。
Z 品牌的平板電腦每臺能平均使用 50 年嗎?不太可能。因此,在這樣的情況下,指標(biāo)會被分解。
如何以及何時使用平均故障時間
當(dāng)您嘗試評估壽命較短的產(chǎn)品和系統(tǒng)(例如燈泡)的平均壽命時,MTTF 很好用。它也僅適用于評估全部產(chǎn)品故障的情況。如果您要計算需要修復(fù)的事件之間的間隔時間,可以使用 MTBF(平均故障間隔時間)。
MTBF vs. MTTR vs. MTTF vs. MTTA
那么,在跟蹤和改善事件管理方面,哪種衡量標(biāo)準(zhǔn)更好呢?
答案是全部。
雖然它們有時可以互換使用,但每個指標(biāo)都提供了不同的見解。組合使用時,它們可以更完整地講述您的團(tuán)隊在事件管理方面的成功程度以及團(tuán)隊可以改進(jìn)的地方。
平均恢復(fù)時間告訴您系統(tǒng)能以多快的速度恢復(fù)運(yùn)行。
加上平均響應(yīng)時間,您就可以知道有多少恢復(fù)時間屬于團(tuán)隊,多少屬于您的警報系統(tǒng)。
再加上平均修復(fù)時間,您就能開始了解團(tuán)隊在修復(fù)和診斷上花了多少時間。
加上平均解決時間,您就會開始了解修復(fù)和解決問題的全部范圍,而不僅僅是問題造成的實(shí)際停機(jī)期間。
再加入平均故障間隔時間,信息就會更詳盡,顯示您的團(tuán)隊在預(yù)防或減少未來問題方面的成功程度。
然后再加上平均故障時間,了解產(chǎn)品或系統(tǒng)的整個生命周期。
更多TPM咨詢,設(shè)備管理咨詢 請咨詢?nèi)A昊企管