вверх

Планирование аварийного восстановления

Авария в ИТ — это незапланированное событие, связанное с массовым отказом оборудования или сбоем ключевого элемента системы. Это приводит к нарушению функционирования ИТ-инфраструктуры, длительным простоям и требует немедленного реагирования. Причины возникновения аварий могут быть различными: отказ оборудования, человеческий фактор, природные или техногенные катастрофы.

Аварийное восстановление — это комплекс мероприятий, направленных на оперативное восстановление работы конечного сервиса. Его основная цель — быстро вернуть функции для пользователей. Например, если выходит из строя сервер электронной почты, задача аварийного восстановления — обеспечить возможность отправки и получения сообщений, а не возвращать в строй конкретное оборудование. При поломке принтера важно восстановить саму функцию печати, а не определенное устройство.

Вот основные шаги планирования аварийного восстановления:

  1. Определить критичные для работы предприятия сервисы;
  2. Выявить узкие места в инфраструктуре, отказ которых может остановить работу критичных сервисов;
  3. Разработать план действий по запуску критичных сервисов в случае отказа систем;
  4. Провести инструктаж для специалистов и ключевых пользователей о действиях во время возникновения аварийной ситуации;
  5. Тестировать созданный набор действий и периодически повторять его в дальнейшем.

Наше мнение

Аварии в ИТ имеют свойство неизбежности: они случаются, независимо от того, насколько отказоустойчивой и надежной является ИТ-инфраструктура. Это вопрос времени — «когда» произойдет аварийная ситуация, а не «если». Можно повышать MTBF (среднее время наработки на отказ) элементов, улучшать их отказоустойчивость и проводить плановое обслуживание систем для раннего выявления сбоев, но теория вероятности неумолима. Она утверждает, что вероятность аварии никогда не будет равна нулю.

Из-за этой неизбежности аварийные ситуации становятся базовым риском информационной безопасности. Цели планирования аварийного восстановления — взять судьбу в свои руки и подготовиться к возможным инцидентам так, чтобы негативные последствия оставались в рамках, приемлемых для бизнеса (в терминах RTO и RPO).

Поделиться •

Давайте общаться

•
•
•
•
Пожалуйста, заполните поля формы, чтобы продолжить