вверх

MTBF

MTBF (Mean Time Between Failures) или «Среднее время наработки на отказ»
— это показатель, который определяет средний период до отказа устройства. Чем выше значение MTBF, тем реже происходят отказы.

MTBF считается одним из трех ключевых параметров оценки надёжности ИТ-инфраструктуры. Остальные два — RTO и RPO — отражают масштаб потенциальных потерь бизнеса во время отказов системы. RTO (Recovery Time Objective) определяет максимально допустимое время восстановления, а RPO (Recovery Point Objective) — максимально допустимую потерю данных в случае отказа.

Как определяется MTBF

Срок эксплуатации любой системы, устройства или сервиса условно можно разделить на три периода:

  1. Приработка — начальный этап эксплуатации, который обычно длится от одного до трёх месяцев и может сопровождаться повышенной частотой сбоев из-за конструктивных, либо производственных дефектов.
  2. Нормальная эксплуатация — основной этап, характеризующийся наименьшей частотой отказов. Сбои в этот период чаще всего внезапны, так как не связаны с износом или старением оборудования.
  3. Интенсивный износ (старение) — заключительный этап, на котором начинаются постепенные отказы с непредсказуемой частотой, вызванные старением или износом оборудования.
•

Так выглядит график зависимости отказов от периода эксплуатации системы, где tо- t1 это время приработки, t-1-t2 время нормальной эксплуатации, а t2 и далее в неизвестное — время старения

Вычисление MTBF

MTBF рассчитывается на основе второго периода эксплуатации, когда устройство работает без серьезных сбоев. Для его вычисления учитывается среднее количество отказов за этот промежуток времени.

Предположим, мы хотим узнать MTBF конкретной модели лампочки. Для этого можно включить две одинаковых лампочки и проследить их работу. Допустим, одна из них откажет через 10 часов, а вторая — через 190 часов. Чтобы рассчитать MTBF, складываем время, в течение которого они обе работали без сбоев (10 часов + 190 часов), и делим на количество элементов (лампочек). Таким образом, MTBF данной модели составит (190 + 10) / 2 = 100 часов.

Это несколько вырожденный пример, поскольку он показывает крайние случаи. Например, в реальной жизни существует вероятность, что обе лампочки могут отработать 10 часов, или, наоборот, проработать все 190 часов. Теория вероятности — вещь безжалостная. Однако если мы протестируем больше лампочек, их среднее время работы до отказа будет ближе к заявленным производителем 100 часам.

Таким образом, при большом количестве элементов реальная средняя наработка на отказ будет стремиться к заявленному производителем MTBF, поскольку случайные колебания будут нивелироваться.

Зачем определять MTBF

Зная значение MTBF для каждого элемента системы, а также их взаимосвязи и применяя теорию вероятности, можно определить частоту отказов всей системы в целом. Это обеспечивает объективную основу для сравнения надежности различных архитектур информационных систем и помогает принимать обоснованные решения при выборе целевой архитектуры.

Наше мнение

  1. Существует обширная дисциплина, известная как теория надежности систем, с которой следует ознакомиться каждому системному администратору. Она помогает оценивать вероятность «сгорания лампочек» в обслуживаемой инфраструктуре, тем самым снижая риск прерывания сервиса. Знание этой теории, а также основ теории вероятности позволяет контролировать частоту критических сбоев и строить действительно надежные системы.
  2. Следует понимать, что параметр MTBF не гарантирует бесперебойную работу устройства в течение указанного времени, а лишь отражает средний интервал до предполагаемого отказа. Кроме того, на MTBF могут негативно влиять такие факторы окружающей среды, такие как температура или влажность в помещении, где эксплуатируется оборудование. И все же, без понимания MTBF сложно обеспечить надежную работу инфраструктуры.
Поделиться •

Давайте общаться

•
•
•
•
Пожалуйста, заполните поля формы, чтобы продолжить