Делаем хороший мониторинг ЦОД. Часть 2: Как искать

Продолжаем наши заметки по теме мониторинга в отношении Центров обработки данных (ЦОД)…

В первой части мы постарались определить, что следует искать – ищем все, что увеличивает расходы и снижает выручку. Где искать – тоже. Как мы отметили, “под подозрение” здесь попадает вся инфраструктура ЦОД, начиная от территории, на которой расположено здание, и заканчивая виртуальными серверами, приложениями и сервисами. Сейчас мы предлагаем поговорить о том, как искать в ЦОД то, что конкретно нужно включить в систему мониторинга.

При всем разнообразии объектов, которые расположены в ЦОД, ответ на вопрос “как” удалось уложить в алгоритм из семи шагов. Шаги масштабные и весьма трудоемкие, но при должном старании обеспечат вам достойный результат.

Итак, обозначим исходные обстоятельства. Вы – человек, который строит новый ЦОД. Или получил в управление существующий ЦОД. И вам нужно организовать мониторинг с нуля либо ревизовать то, что вы получили. Открываем алгоритм – и за дело!

Шаг первый. Тщательно изучите техническую составляющую ЦОД. Ответьте для себя на вопросы:

Из чего это построено (или будет построено)? Какие применены технические решения?
Насколько оборудование надежное? Какая репутация у технических решений среди специалистов? Доступны ли для него оригинальные запчасти? Есть ли поблизости от вас профессиональные, желательно сертифицированные вендором, специалисты по обслуживанию?
Насколько задействованное оборудование новое? Какова его судьба? Поступило оно напрямую от поставщика или долгое время лежало на каком-нибудь складе под открытым небом?
Когда оборудование в последний раз обслуживалось? Что с ним делали? Какова вообще история ремонтов оборудования?
Как оборудование соединено между собой на схемах и в реальности? Соответствуют ли соединения предполагаемой нагрузке? Есть ли запас? Предусмотрено ли резервирование? Где проложены кабели? Насколько они защищены?

Цель этого шага – выявить потенциально опасные участки, требующие особого внимания. Причем, при проведении анализа нужно обязательно держать в уме, что именно мы ищем – все, что ведет к уменьшению выручки (поломки оборудования, перегрузки, снижение качества, простои и пр.) и к росту затрат (повышенный расход ресурсов, таких как электроэнергия, вода, финансовые средства). Выявили – возьмите “на карандаш”. Именно этим местам нужно будет уделить повышенное внимание при мониторинге.

Шаг второй. Задумайтесь о том, кто или что, помимо собственно техники, может привести к проблемам? Подумайте над следующим:

Кто или что может отключить оборудование? В ответе на этот вопрос таится целая вселенная. Это и сотрудник без должного уровня квалификации, и неудачно расположенные автоматические выключатели, которые можно задеть проходя мимо, и плохо закрепленные кабели, и еще масса всего интересного.
Кто или что может вывести из строя наше оборудование? Здесь вариантов еще больше. Вода, огонь, упавший в стойку инструмент, перегревы, снова сотрудники с низкой квалификацией, высокая нагрузка в течение долгого времени и многое многое другое.
Какова вероятность этого?…
Предусмотрен ли резерв для оборудования, которое потенциально может пострадать?
Как долго мы будем восстанавливать сломанное оборудование? Кто будет это делать?
Как долго мы будем восстанавливать резерв запасных частей?

Цель этого исследования схожа с целью первого шага. Необходимо выявить и внести в список, начатый на первом этапе, все потенциально опасные факторы жизни ЦОД, которые могут привести к тому, чего мы стремимся избежать – к потерям выручки и росту затрат.

Шаг третий. Снова задаемся вопросом и снова ищем на него ответ. Вопрос на этот раз такой – как будет выглядеть ситуация, когда сработают элементы списка 1 и 2 шагов? Не все сразу, разумеется, по одному. Итак, ответьте себе:

Что будет, если это случится? Что будет, если пропадет электричество, протечет вода, малограмотный сотрудник выключит не тот выключатель? Вырастет температура, что-то выключится, перегреется, откажет, станет работать хуже или вовсе пропадет, как, к примеру, освещение?
Что мы увидим или почувствуем? Какие признаки ситуации можно будет наблюдать и как?
Как это будет выглядеть во времени? Это произойдет мгновенно или будет какое-то время копиться и только потом обрушится на нас?
Можно ли это увидеть заранее? Есть ли какие-то признаки наступления аварийной ситуации? Например, запах дыма перед возгоранием, или лужица на полу перед затоплением. Или пришедший в автозал сотрудник, который не имеет никакого отношения к ЦОД…

Цель исследования на этом шаге – понять, на что нужно нацеливать мониторинг, помимо традиционных температуры и электроснабжения в целом. Обязательно зафиксировать в документации. И продолжить исследование…

Шаг четвертый. На этом шаге предстоит выяснить четкие критерии аварийных ситуаций и методы их обнаружения. Отвечаем для себя на такие вопросы:

Как можно определить, что случилась аварийная ситуация? Что для этого нужно? Приборы (какие), программы (какие), люди? Собственно, детальная технология обнаружения для каждого случая из наших списков состоит из методики и необходимых средств.
Можно ли определить факт аварийной ситуации уже имеющимися у нас средствами?
Если нет – что, куда и сколько необходимо добавить?
Какие значения параметров говорят о том, что аварийная ситуация все-таки наступила? Очень важный момент, который нельзя пропустить. Что конкретно мы понимаем под “пропало напряжение”? 180 Вольт – это уже “пропало” или еще нет? А отсутствие одной фазы из трех? А температура воздуха 25,1 градуса?…

Обязательно фиксируем все ответы. В будущем они станут основой мониторинга – метриками и триггерами. И важно понимать, что здесь не может быть ответов правильных и неправильных. Как вы придумаете, какие явления и каким образом будете оценивать, зависит от вашего конкретного ЦОД и стоящих только перед вами задач. Есть, правда, и обратная сторона этой медали. Как придумаете, так и будет работать. Но такое в жизни встречается часто, пора привыкнуть…

Шаг пятый. Начинаем задумываться, что мы будем делать с аварийной ситуацией, которую своевременно увидели. Прорабатываем ответы на следующие вопросы:

Что надо делать в такой ситуации? Пока просто необходимые действия. Например, “запустить резервный кондиционер, аварийный заблокировать”.
А кто это должен сделать? А вот здесь уже сложнее… Нужно найти человека или подразделение, у которого соответствующие действия входят в должностные обязанности. Можете столкнуться с сюрпризом – для некоторых ситуаций может оказаться, что таких людей нет, и все происходит как-то само… И тогда таких людей придется искать и назначать.
Есть ли у этого подразделения достаточное количество необходимых ресурсов? Люди, средства передвижения, инструменты, запасные части. Может быть, теплая одежда или специальные приспособления, например, для работы на высоте. Пропуск в ЦОД, в конце концов. В какое время суток эти люди доступны? А насколько это сочетается с критичностью ситуации и ее вероятностью?
Есть ли в компании регламент для такой ситуации? Можем ли мы на что-то опереться или необходимо изобретать что-то заново?
Что из необходимых действий можно автоматизировать, поручить роботу? А есть ли у вас такой робот или его нужно создавать? Робот, кстати, вполне может стать частью мониторинга, который вы создаете, а его применение потребует привлекать меньше людей в дежурную смену (затраты на персонал, ага), снизит простои и их влияние на выручку (мы же помним еще для чего все это делаем?). Так что уделите этому вопросу должное внимание.
На что еще могут повлиять запланированные нами действия? Не затронут ли они другие части ЦОД? Как это можно учесть? Возможно, вместе с тем, что необходимо сделать для устранения аварии нужно что-то еще. Привлечь специалистов из другого ЦОД, снизить мощность, перераспределить нагрузку, вызвать подрядчиков… Предупредить клиентов, в конце концов. Продумайте и запланируйте это.

Ответы, которые вы дадите на этом шаге, станут основой процессов эксплуатации ЦОД. Возможно, при проработке вы столкнетесь с ситуацией, когда придется менять процессы, существующие в вашей компании, или вводить новые. Не пугайтесь, это нормально. Фиксируйте необходимые изменения и переходите к следующему шагу.

Шаг шестой. Процессы проработаны, осталось разобраться с их информационным обеспечением. Ответьте на следующие вопросы:

Как участники процесса будут узнавать о необходимости совершения действий?
Как понять, что участник процесса узнал о том, что именно нужно делать?
Как понять, что участники что-то делают? А также понять, что они делают то, что нужно?
Какая информация необходима каждому участнику процесса чтобы отработать максимально эффективно?

Очень важный и интересный этап. Нужно детально разбираться в том, что люди делают по вашим поручениям. Представлять в деталях, какие у привлекаемых сотрудников возможности и обязанности. Четко знать возможности доступных средств коммуникации. И, скорее всего, по результатам обследования что-то из этого придется изменить – подправить процессы, изменить круг обязанностей, поработать со средствами коммуникации. Но все это для благой цели – “правильного” мониторинга.

Шаг седьмой, последний. На основании проделанной работы необходимо разработать и внедрить систему мониторинга, в которой реализовать:

Набор источников данных и метрик, которые вы выделили как необходимые.
Систему состояний и триггеров, которые опишут все ваши опасения.
Визуализацию, которая позволит сотрудникам быстро и качественно понять, что происходит.
Систему оповещений, которая заставит придуманный вами “механизм” работать.
Систему контроля за процессом (включая SLA), которая не даст вашему “механизму” давать сбои или заглохнуть.

Для наглядности мы изобразили на рисунке описанное выше в виде цепочки последовательных шагов. И назвали эту цепочку – “Алгоритм реализации правильного мониторинга” :-). Пользуйтесь!

Не нужно пугаться сложности или объемов описанного алгоритма. Да, работа большая. Да, она затрагивает не только технические аспекты, но касается и массы других вопросов. Да, на действующей системе такие вопросы решать сложно и иногда болезненно. Но, поверьте опыту авторов, решать их нужно. И от качества их решения напрямую зависит качество мониторинга, который получится в итоге. А, значит – и качество сервисов вашего ЦОД, успешность бизнеса и удовлетворенность клиентов. Для чего, собственно, все и делается.

Описанные в статье выводы, алгоритмы и логические конструкции сделаны не просто так, “из любви к искусству”. Это – методики, которые мы применяем в процессе разработки и реализации систем мониторинга для наших заказчиков. Методики, которые помогают сделать наших заказчиков более успешными, уверенными в том, что их ЦОД находится под надежным контролем. И которые, в конечном итоге, дадут им все основания рекомендовать нас как профессионального поставщика современных решений мониторинга ЦОД.

Делаем хороший мониторинг ЦОД. Часть 2: Как искать

Konstantin

Next PostДелаем хороший мониторинг ЦОД. Часть 1: Что и где искать

Рубрики