вверх

Мониторинг ИТ-систем

Мониторинг — это инструмент обслуживания ИТ-инфраструктуры, обеспечивающий непрерывный автоматический контроль её ключевых параметров. Он помогает специалистам своевременно обнаруживать отказы и отклонения в работе систем, определять корневые причины инцидентов и контролировать отказоустойчивость.

Ключевые аспекты мониторинга включают доступность и работоспособность узлов и служб, использование ресурсов и наличие критических ошибок. Мониторинг обычно дополняет регламентно-профилактическое обслуживание.

Зачем нужен мониторинг

Быстро выявлять причину сбоя. Когда специалист технической поддержки получает сообщение о «неработающей электронной почте», причин может быть множество: от перебоев с электроснабжением до ошибки в одной из служб сервера. А что, если сбой непостоянный и возникает, например, на 30 секунд в день? Или если инфраструктура компании состоит из сотен серверов и приложений, распределённых по нескольким дата-центрам? Как быстро найти источник проблемы? Для таких задач ИТ-службе и нужна система мониторинга, которая оперативно указывает на проблемные узлы.

Контролировать целостность отказоустойчивой системы. Сохранение работоспособности при отказе одного из дублируемых компонентов — ключевое свойство любой отказоустойчивой ИТ-инфраструктуры. Однако без мониторинга специалисты могут не заметить сбой в одном из резервных элементов. Это может привести к тому, что изначально некритичный отказ, оставленный без внимания, эскалируется и затронет другие компоненты, превратившись в полноценный инцидент с угрозой потерь для бизнеса.

Наше мнение

  1. Мониторинг, на который не реагируют, бесполезен. Если система мониторинга генерирует уведомления обо всё подряд, она создаёт информационный шум, из-за которого специалист может пропустить начало серьёзного инцидента. Чтобы избежать перегрузки процессов и команды, мы рекомендуем начинать развертывание мониторинга с определения ключевых метрик и настройки фильтров оповещений только по важным параметрам. Это поможет ИТ-специалистам сосредоточиться на своевременном реагировании на действительно значимые события.
  2. Мониторинг обязателен для отказоустойчивых ИТ-систем. Если состояние зарезервированных элементов не отслеживается круглосуточно, такую инфраструктуру можно считать надежной, но не отказоустойчивой. Постоянный контроль всех элементов системы — вот основа обеспечения её отказоустойчивости.
  3. Исправность мониторинга нужно проверять регулярно. Мы ожидаем от системы оперативных сообщений о сбоях, но чтобы это было возможно, сам мониторинг должен исправно работать. Нам известен случай, когда в одной компании во время ремонта сняли плазменные экраны и обнаружили, что даже в выключенном состоянии на дисплеях отображалась прежняя картинка. Оказалось, что мониторы выгорели, и целый мониторинговый центр несколько месяцев наблюдал статичное изображение на стене.
Поделиться •

Давайте общаться

•
•
•
•
Пожалуйста, заполните поля формы, чтобы продолжить