Skip to main content

Продолжаем наши заметки по теме мониторинга в отношении Центров обработки данных (ЦОД)…

В первой части мы постарались определить, что следует искать – ищем все, что увеличивает расходы и снижает выручку. Где искать – тоже. Как мы отметили, “под подозрение” здесь попадает вся инфраструктура ЦОД, начиная от территории, на которой расположено здание, и заканчивая виртуальными серверами, приложениями и сервисами. Сейчас мы предлагаем поговорить о том, как искать в ЦОД то, что конкретно нужно включить в систему мониторинга.

При всем разнообразии объектов, которые расположены в ЦОД, ответ на вопрос “как” удалось уложить в алгоритм из семи шагов. Шаги масштабные и весьма трудоемкие, но при должном старании обеспечат вам достойный результат.

Итак, обозначим исходные обстоятельства. Вы – человек, который строит новый ЦОД. Или получил в управление существующий ЦОД. И вам нужно организовать мониторинг с нуля либо ревизовать то, что вы получили. Открываем алгоритм – и за дело!

Шаг первый. Тщательно изучите техническую составляющую ЦОД. Ответьте для себя на вопросы:

  • Из чего это построено (или будет построено)? Какие применены технические решения?
  • Насколько оборудование надежное? Какая репутация у технических решений среди специалистов? Доступны ли для него оригинальные запчасти? Есть ли поблизости от вас профессиональные, желательно сертифицированные вендором, специалисты по обслуживанию? 
  • Насколько задействованное оборудование новое? Какова его судьба? Поступило оно напрямую от поставщика или долгое время лежало на каком-нибудь складе под открытым небом?
  • Когда оборудование в последний раз обслуживалось? Что с ним делали? Какова вообще история ремонтов оборудования?
  • Как оборудование соединено между собой на схемах и в реальности? Соответствуют ли соединения предполагаемой нагрузке? Есть ли запас? Предусмотрено ли резервирование? Где проложены кабели? Насколько они защищены?

Цель этого шага – выявить потенциально опасные участки, требующие особого внимания. Причем, при проведении анализа нужно обязательно держать в уме, что именно мы ищем – все, что ведет к уменьшению выручки (поломки оборудования, перегрузки, снижение качества, простои и пр.) и к росту затрат (повышенный расход ресурсов, таких как электроэнергия, вода, финансовые средства). Выявили – возьмите “на карандаш”. Именно этим местам нужно будет уделить повышенное внимание при мониторинге.

Шаг второй. Задумайтесь о том, кто или что, помимо собственно техники, может привести к проблемам? Подумайте над следующим:

  • Кто или что может отключить оборудование? В ответе на этот вопрос таится целая вселенная. Это и сотрудник без должного уровня квалификации, и неудачно расположенные автоматические выключатели, которые можно задеть проходя мимо, и плохо закрепленные кабели, и еще масса всего интересного.
  • Кто или что может вывести из строя наше оборудование? Здесь вариантов еще больше. Вода, огонь, упавший в стойку инструмент, перегревы, снова сотрудники с низкой квалификацией, высокая нагрузка в течение долгого времени и многое многое другое.
  • Какова вероятность этого?…
  • Предусмотрен ли резерв для оборудования, которое потенциально может пострадать?
  • Как долго мы будем восстанавливать сломанное оборудование? Кто будет это делать?
  • Как долго мы будем восстанавливать резерв запасных частей?

Цель этого исследования схожа с целью первого шага. Необходимо выявить и внести в список, начатый на первом этапе, все потенциально опасные факторы жизни ЦОД, которые могут привести к тому, чего мы стремимся избежать – к потерям выручки и росту затрат.

Шаг третий. Снова задаемся вопросом и снова ищем на него ответ. Вопрос на этот раз такой – как будет выглядеть ситуация, когда сработают элементы списка 1 и 2 шагов? Не все сразу, разумеется, по одному. Итак, ответьте себе:

  • Что будет, если это случится? Что будет, если пропадет электричество, протечет вода, малограмотный сотрудник выключит не тот выключатель? Вырастет температура, что-то выключится, перегреется, откажет, станет работать хуже или вовсе пропадет, как, к примеру, освещение?
  • Что мы увидим или почувствуем? Какие признаки ситуации можно будет наблюдать и как?
  • Как это будет выглядеть во времени? Это произойдет мгновенно или будет какое-то время копиться и только потом обрушится на нас?
  • Можно ли это увидеть заранее? Есть ли какие-то признаки наступления аварийной ситуации? Например, запах дыма перед возгоранием, или лужица на полу перед затоплением. Или пришедший в автозал сотрудник, который не имеет никакого отношения к ЦОД…

Цель исследования на этом шаге – понять, на что нужно нацеливать мониторинг, помимо традиционных температуры и электроснабжения в целом. Обязательно зафиксировать в документации. И продолжить исследование…

Шаг четвертый. На этом шаге предстоит выяснить четкие критерии аварийных ситуаций и методы их обнаружения. Отвечаем для себя на такие вопросы:

  • Как можно определить, что случилась аварийная ситуация? Что для этого нужно? Приборы (какие), программы (какие), люди? Собственно, детальная технология обнаружения для каждого случая из наших списков состоит из методики и необходимых средств.
  • Можно ли определить факт аварийной ситуации уже имеющимися у нас средствами?
  • Если нет – что, куда и сколько необходимо добавить?
  • Какие значения параметров говорят о том, что аварийная ситуация все-таки наступила? Очень важный момент, который нельзя пропустить. Что конкретно мы понимаем под “пропало напряжение”? 180 Вольт – это уже “пропало” или еще нет? А отсутствие одной фазы из трех? А температура воздуха 25,1 градуса?…

Обязательно фиксируем все ответы. В будущем они станут основой мониторинга – метриками и триггерами. И важно понимать, что здесь не может быть ответов правильных и неправильных. Как вы придумаете, какие явления и каким образом будете оценивать, зависит от вашего конкретного ЦОД и стоящих только перед вами задач. Есть, правда, и обратная сторона этой медали. Как придумаете, так и будет работать. Но такое в жизни встречается часто, пора привыкнуть…

Шаг пятый. Начинаем задумываться, что мы будем делать с аварийной ситуацией, которую своевременно увидели. Прорабатываем ответы на следующие вопросы:

  • Что надо делать в такой ситуации? Пока просто необходимые действия. Например, “запустить резервный кондиционер, аварийный заблокировать”.
  • А кто это должен сделать? А вот здесь уже сложнее… Нужно найти человека или подразделение, у которого соответствующие действия входят в должностные обязанности. Можете столкнуться с сюрпризом – для некоторых ситуаций может оказаться, что таких людей нет, и все происходит как-то само… И тогда таких людей придется искать и назначать.
  • Есть ли у этого подразделения достаточное количество необходимых ресурсов? Люди, средства передвижения, инструменты, запасные части. Может быть, теплая одежда или специальные приспособления, например, для работы на высоте. Пропуск в ЦОД, в конце концов. В какое время суток эти люди доступны? А насколько это сочетается с критичностью ситуации и ее вероятностью?
  • Есть ли в компании регламент для такой ситуации? Можем ли мы на что-то опереться или необходимо изобретать что-то заново?
  • Что из необходимых действий можно автоматизировать, поручить роботу? А есть ли у вас такой робот или его нужно создавать? Робот, кстати, вполне может стать частью мониторинга, который вы создаете, а его применение потребует привлекать меньше людей в дежурную смену (затраты на персонал, ага), снизит простои и их влияние на выручку (мы же помним еще для чего все это делаем?). Так что уделите этому вопросу должное внимание.
  • На что еще могут повлиять запланированные нами действия? Не затронут ли они другие части ЦОД? Как это можно учесть? Возможно, вместе с тем, что необходимо сделать для устранения аварии нужно что-то еще. Привлечь специалистов из другого ЦОД, снизить мощность, перераспределить нагрузку, вызвать подрядчиков… Предупредить клиентов, в конце концов. Продумайте и запланируйте это.

Ответы, которые вы дадите на этом шаге, станут основой процессов эксплуатации ЦОД. Возможно, при проработке вы столкнетесь с ситуацией, когда придется менять процессы, существующие в вашей компании, или вводить новые. Не пугайтесь, это нормально. Фиксируйте необходимые изменения и переходите к следующему шагу.

Шаг шестой. Процессы проработаны, осталось разобраться с их информационным обеспечением. Ответьте на следующие вопросы:

  • Как участники процесса будут узнавать о необходимости совершения действий?
  • Как понять, что участник процесса узнал о том, что именно нужно делать?
  • Как понять, что участники что-то делают? А также понять, что они делают то, что нужно?
  • Какая информация необходима каждому участнику процесса чтобы отработать максимально эффективно?

Очень важный и интересный этап. Нужно детально разбираться в том, что люди делают по вашим поручениям. Представлять в деталях, какие у привлекаемых сотрудников возможности и обязанности. Четко знать возможности доступных средств коммуникации. И, скорее всего, по результатам обследования что-то из этого придется изменить – подправить процессы, изменить круг обязанностей, поработать со средствами коммуникации. Но все это для благой цели – “правильного” мониторинга.

Шаг седьмой, последний. На основании проделанной работы необходимо разработать и внедрить систему мониторинга, в которой реализовать:

  • Набор источников данных и метрик, которые вы выделили как необходимые.
  • Систему состояний и триггеров, которые опишут все ваши опасения.
  • Визуализацию, которая позволит сотрудникам быстро и качественно понять, что происходит.
  • Систему оповещений, которая заставит придуманный вами “механизм” работать.
  • Систему контроля за процессом (включая SLA), которая не даст вашему “механизму” давать сбои или заглохнуть.

Для наглядности мы изобразили на рисунке описанное выше в виде цепочки последовательных шагов. И назвали эту цепочку – “Алгоритм реализации правильного мониторинга” :-). Пользуйтесь!

Не нужно пугаться сложности или объемов описанного алгоритма. Да, работа большая. Да, она затрагивает не только технические аспекты, но касается и массы других вопросов. Да, на действующей системе такие вопросы решать сложно и иногда болезненно. Но, поверьте опыту авторов, решать их нужно. И от качества их решения напрямую зависит качество мониторинга, который получится в итоге. А, значит – и качество сервисов вашего ЦОД, успешность бизнеса и удовлетворенность клиентов. Для чего, собственно, все и делается.

Описанные в статье выводы, алгоритмы и логические конструкции сделаны не просто так, “из любви к искусству”. Это – методики, которые мы применяем в процессе разработки и реализации систем мониторинга для наших заказчиков. Методики, которые помогают сделать наших заказчиков более успешными, уверенными в том, что их ЦОД находится под надежным контролем. И которые, в конечном итоге, дадут им все основания рекомендовать нас как профессионального поставщика современных решений мониторинга ЦОД.