Авария в ИТ — это незапланированное событие, связанное с массовым отказом оборудования или сбоем ключевого элемента системы. Это приводит к нарушению функционирования ИТ-инфраструктуры, длительным простоям и требует немедленного реагирования. Причины возникновения аварий могут быть различными: отказ оборудования, человеческий фактор, природные или техногенные катастрофы.
Аварийное восстановление — это комплекс мероприятий, направленных на оперативное восстановление работы конечного сервиса. Его основная цель — быстро вернуть функции для пользователей. Например, если выходит из строя сервер электронной почты, задача аварийного восстановления — обеспечить возможность отправки и получения сообщений, а не возвращать в строй конкретное оборудование. При поломке принтера важно восстановить саму функцию печати, а не определенное устройство.
Вот основные шаги планирования аварийного восстановления:
Аварии в ИТ имеют свойство неизбежности: они случаются, независимо от того, насколько отказоустойчивой и надежной является ИТ-инфраструктура. Это вопрос времени — «когда» произойдет аварийная ситуация, а не «если». Можно повышать MTBF (среднее время наработки на отказ) элементов, улучшать их отказоустойчивость и проводить плановое обслуживание систем для раннего выявления сбоев, но теория вероятности неумолима. Она утверждает, что вероятность аварии никогда не будет равна нулю.
Из-за этой неизбежности аварийные ситуации становятся базовым риском информационной безопасности. Цели планирования аварийного восстановления — взять судьбу в свои руки и подготовиться к возможным инцидентам так, чтобы негативные последствия оставались в рамках, приемлемых для бизнеса (в терминах RTO и RPO).