RTO (Recovery Time Objective или «Допустимое время восстановления») и RPO (Recovery Point Objective или «Допустимая потеря данных») — это два из трёх основных показателей надёжности ИТ-инфраструктуры. Они отражают степень потерь бизнеса в случае аварийной ситуации. Третий показатель, MTBF, определяет частоту возникновения сбоев. Такие параметры закладываются на этапе проектирования ИТ-инфраструктуры, планирования аварийного восстановления и составления схемы резервного копирования данных.
Отрезок, через который ИТ-система должна работать после аварии. |
Отрезок, за который потеряются рабочие данные в случае сбоя. |
Наше мнение
- Системные администраторы обязаны понимать параметры RTO и RPO в своей ИТ-инфраструктуре. В идеале эти показатели должны быть прописаны в SLA. На вопросы о максимальном времени простоя и допустимой потере данных должен быть чёткий и понятный ответ. Например: «Если сервер откажет, работа систем будет восстановлена через 4 часа (RTO), а данные откатятся до состояния на 20:00 предыдущего дня (RPO)».
- Желательно, чтобы RTO и RPO были согласованы с бизнесом. Ситуации, при которых восстановление системы невозможно, или восстановление займет больше плановых показателей RTO и RPO, должны быть согласованы отдельно. Например, ситуации одновременно отказа нескольких операторов связи или пожара в единственном серверном помещении — это эксплуатационный риск, о котором бизнес должен знать заранее, чтобы иметь возможность принять действия по его подавлению или принять его как экономически обоснованный эксплуатационный риск.