вверх

Отказоустойчивость

Отказоустойчивость — это способность ИТ-систем продолжать работу даже при отказе одного из элементов. Такие системы строятся на двух принципах:

  1. Обеспечение избыточности элементов (резервирование) — каждый отказавший элемент имеет как минимум один резервный для подмены;
  2. Изоляция элементов — отказавший элемент не может негативно воздействовать на другие компоненты системы.

Например, в отказоустойчивой системе дата-центра могут быть установлены сдвоенные блоки питания на каждом сервере. Если один блок питания выйдет из строя, система автоматически переключится на резервный, и работа продолжится без перерывов. Кроме того, диски могут быть объединены в RAID массив, что обеспечивает дублирование данных на нескольких дисках. В случае выхода из строя одного из дисков, остальные продолжат хранить данные, и это не повлияет на доступность системы.

Примеры технологий отказоустойчивости:

  • сдвоенные блоки питания;
  • объединение дисков в RAID массивы (1,5,6,10);
  • репликация и кластеризация на уровне приложений или системы виртуализации;
  • протоколы резервирования шлюза по умолчанию (VRRP, HSRP);
  • стекирование сетевых коммутаторов и агрегация сетевых подключений;
  • динамические протоколы маршрутизации и резервирование каналов связи.

Наше мнение

  1. Повышенная отказоустойчивость помогает предотвратить временные сбои, но не заменяет необходимость регулярного резервного копирования данных. Это важно, чтобы в случае критических ситуаций, таких как масштабный сбой или пожар в серверной, гарантировать долгосрочную сохранность данных и обеспечить их быстрое восстановление после инцидента.
  2. Состояние компонентов отказоустойчивой системы требует регулярного мониторинга. Если отказ одного из зарезервированных элементов останется незамеченным, это может лишить систему отказоустойчивости. В случаях, когда автоматизированный мониторинг невозможен, его необходимо заменить систематическими ручными проверками в рамках регламентно-профилактического обслуживания.
  3. Даже в отказоустойчивой системе необходим план аварийного восстановления — набор мероприятий на случай, когда (не «если», а именно «когда») отказоустойчивая система всё же выйдет из строя.
  4. При проектировании отказоустойчивых систем мы рекомендуем уделить особое внимание предотвращению ситуаций «разделенный мозг» (split brain). В таких случаях зарезервированные элементы теряют связь и начинают считать, что другой больше не функционирует. Это может привести к несогласованности данных в серверных системах или к сбоям в работе сети. Обычно такие ситуации устраняются обеспечением отказоустойчивой связи между элементами и использованием технологий, таких как «кворум» или «свидетель».
  5. Хотя отказоустойчивость снижает вероятность инцидентов, она не устраняет их полностью. Для оценки общей надежности ИТ-инфраструктуры нужно изучить её архитектуру, взаимосвязь компонентов и методы их резервирования. Также необходимо рассчитать среднее время наработки на отказ (MTBF) для всей системы, опираясь на показатели отдельных элементов. Полученное значение может быть довольно большим, но не бесконечным.
Поделиться •

Давайте общаться

•
•
•
•
Пожалуйста, заполните поля формы, чтобы продолжить