MTBF (Mean Time Between Failures) или «Среднее время наработки на отказ»
— это показатель, который определяет средний период до отказа устройства. Чем выше значение MTBF, тем реже происходят отказы.
MTBF считается одним из трех ключевых параметров оценки надёжности ИТ-инфраструктуры. Остальные два — RTO и RPO — отражают масштаб потенциальных потерь бизнеса во время отказов системы. RTO (Recovery Time Objective) определяет максимально допустимое время восстановления, а RPO (Recovery Point Objective) — максимально допустимую потерю данных в случае отказа.
Срок эксплуатации любой системы, устройства или сервиса условно можно разделить на три периода:
Так выглядит график зависимости отказов от периода эксплуатации системы, где tо- t1 это время приработки, t-1-t2 время нормальной эксплуатации, а t2 и далее в неизвестное — время старения
MTBF рассчитывается на основе второго периода эксплуатации, когда устройство работает без серьезных сбоев. Для его вычисления учитывается среднее количество отказов за этот промежуток времени.
Предположим, мы хотим узнать MTBF конкретной модели лампочки. Для этого можно включить две одинаковых лампочки и проследить их работу. Допустим, одна из них откажет через 10 часов, а вторая — через 190 часов. Чтобы рассчитать MTBF, складываем время, в течение которого они обе работали без сбоев (10 часов + 190 часов), и делим на количество элементов (лампочек). Таким образом, MTBF данной модели составит (190 + 10) / 2 = 100 часов.
Это несколько вырожденный пример, поскольку он показывает крайние случаи. Например, в реальной жизни существует вероятность, что обе лампочки могут отработать 10 часов, или, наоборот, проработать все 190 часов. Теория вероятности — вещь безжалостная. Однако если мы протестируем больше лампочек, их среднее время работы до отказа будет ближе к заявленным производителем 100 часам.
Таким образом, при большом количестве элементов реальная средняя наработка на отказ будет стремиться к заявленному производителем MTBF, поскольку случайные колебания будут нивелироваться.
Зная значение MTBF для каждого элемента системы, а также их взаимосвязи и применяя теорию вероятности, можно определить частоту отказов всей системы в целом. Это обеспечивает объективную основу для сравнения надежности различных архитектур информационных систем и помогает принимать обоснованные решения при выборе целевой архитектуры.