Продолжаем наши заметки по теме мониторинга в отношении Центров обработки данных (ЦОД)…
В первой части мы постарались определить, что следует искать – ищем все, что увеличивает расходы и снижает выручку. Где искать – тоже. Как мы отметили, “под подозрение” здесь попадает вся инфраструктура ЦОД, начиная от территории, на которой расположено здание, и заканчивая виртуальными серверами, приложениями и сервисами. Сейчас мы предлагаем поговорить о том, как искать в ЦОД то, что конкретно нужно включить в систему мониторинга.
При всем разнообразии объектов, которые расположены в ЦОД, ответ на вопрос “как” удалось уложить в алгоритм из семи шагов. Шаги масштабные и весьма трудоемкие, но при должном старании обеспечат вам достойный результат.
Итак, обозначим исходные обстоятельства. Вы – человек, который строит новый ЦОД. Или получил в управление существующий ЦОД. И вам нужно организовать мониторинг с нуля либо ревизовать то, что вы получили. Открываем алгоритм – и за дело!
Шаг первый. Тщательно изучите техническую составляющую ЦОД. Ответьте для себя на вопросы:
- Из чего это построено (или будет построено)? Какие применены технические решения?
- Насколько оборудование надежное? Какая репутация у технических решений среди специалистов? Доступны ли для него оригинальные запчасти? Есть ли поблизости от вас профессиональные, желательно сертифицированные вендором, специалисты по обслуживанию?
- Насколько задействованное оборудование новое? Какова его судьба? Поступило оно напрямую от поставщика или долгое время лежало на каком-нибудь складе под открытым небом?
- Когда оборудование в последний раз обслуживалось? Что с ним делали? Какова вообще история ремонтов оборудования?
- Как оборудование соединено между собой на схемах и в реальности? Соответствуют ли соединения предполагаемой нагрузке? Есть ли запас? Предусмотрено ли резервирование? Где проложены кабели? Насколько они защищены?
Цель этого шага – выявить потенциально опасные участки, требующие особого внимания. Причем, при проведении анализа нужно обязательно держать в уме, что именно мы ищем – все, что ведет к уменьшению выручки (поломки оборудования, перегрузки, снижение качества, простои и пр.) и к росту затрат (повышенный расход ресурсов, таких как электроэнергия, вода, финансовые средства). Выявили – возьмите “на карандаш”. Именно этим местам нужно будет уделить повышенное внимание при мониторинге.
Шаг второй. Задумайтесь о том, кто или что, помимо собственно техники, может привести к проблемам? Подумайте над следующим:
- Кто или что может отключить оборудование? В ответе на этот вопрос таится целая вселенная. Это и сотрудник без должного уровня квалификации, и неудачно расположенные автоматические выключатели, которые можно задеть проходя мимо, и плохо закрепленные кабели, и еще масса всего интересного.
- Кто или что может вывести из строя наше оборудование? Здесь вариантов еще больше. Вода, огонь, упавший в стойку инструмент, перегревы, снова сотрудники с низкой квалификацией, высокая нагрузка в течение долгого времени и многое многое другое.
- Какова вероятность этого?…
- Предусмотрен ли резерв для оборудования, которое потенциально может пострадать?
- Как долго мы будем восстанавливать сломанное оборудование? Кто будет это делать?
- Как долго мы будем восстанавливать резерв запасных частей?
Цель этого исследования схожа с целью первого шага. Необходимо выявить и внести в список, начатый на первом этапе, все потенциально опасные факторы жизни ЦОД, которые могут привести к тому, чего мы стремимся избежать – к потерям выручки и росту затрат.
Шаг третий. Снова задаемся вопросом и снова ищем на него ответ. Вопрос на этот раз такой – как будет выглядеть ситуация, когда сработают элементы списка 1 и 2 шагов? Не все сразу, разумеется, по одному. Итак, ответьте себе:
- Что будет, если это случится? Что будет, если пропадет электричество, протечет вода, малограмотный сотрудник выключит не тот выключатель? Вырастет температура, что-то выключится, перегреется, откажет, станет работать хуже или вовсе пропадет, как, к примеру, освещение?
- Что мы увидим или почувствуем? Какие признаки ситуации можно будет наблюдать и как?
- Как это будет выглядеть во времени? Это произойдет мгновенно или будет какое-то время копиться и только потом обрушится на нас?
- Можно ли это увидеть заранее? Есть ли какие-то признаки наступления аварийной ситуации? Например, запах дыма перед возгоранием, или лужица на полу перед затоплением. Или пришедший в автозал сотрудник, который не имеет никакого отношения к ЦОД…
Цель исследования на этом шаге – понять, на что нужно нацеливать мониторинг, помимо традиционных температуры и электроснабжения в целом. Обязательно зафиксировать в документации. И продолжить исследование…
Шаг четвертый. На этом шаге предстоит выяснить четкие критерии аварийных ситуаций и методы их обнаружения. Отвечаем для себя на такие вопросы:
- Как можно определить, что случилась аварийная ситуация? Что для этого нужно? Приборы (какие), программы (какие), люди? Собственно, детальная технология обнаружения для каждого случая из наших списков состоит из методики и необходимых средств.
- Можно ли определить факт аварийной ситуации уже имеющимися у нас средствами?
- Если нет – что, куда и сколько необходимо добавить?
- Какие значения параметров говорят о том, что аварийная ситуация все-таки наступила? Очень важный момент, который нельзя пропустить. Что конкретно мы понимаем под “пропало напряжение”? 180 Вольт – это уже “пропало” или еще нет? А отсутствие одной фазы из трех? А температура воздуха 25,1 градуса?…
Обязательно фиксируем все ответы. В будущем они станут основой мониторинга – метриками и триггерами. И важно понимать, что здесь не может быть ответов правильных и неправильных. Как вы придумаете, какие явления и каким образом будете оценивать, зависит от вашего конкретного ЦОД и стоящих только перед вами задач. Есть, правда, и обратная сторона этой медали. Как придумаете, так и будет работать. Но такое в жизни встречается часто, пора привыкнуть…
Шаг пятый. Начинаем задумываться, что мы будем делать с аварийной ситуацией, которую своевременно увидели. Прорабатываем ответы на следующие вопросы:
- Что надо делать в такой ситуации? Пока просто необходимые действия. Например, “запустить резервный кондиционер, аварийный заблокировать”.
- А кто это должен сделать? А вот здесь уже сложнее… Нужно найти человека или подразделение, у которого соответствующие действия входят в должностные обязанности. Можете столкнуться с сюрпризом – для некоторых ситуаций может оказаться, что таких людей нет, и все происходит как-то само… И тогда таких людей придется искать и назначать.
- Есть ли у этого подразделения достаточное количество необходимых ресурсов? Люди, средства передвижения, инструменты, запасные части. Может быть, теплая одежда или специальные приспособления, например, для работы на высоте. Пропуск в ЦОД, в конце концов. В какое время суток эти люди доступны? А насколько это сочетается с критичностью ситуации и ее вероятностью?
- Есть ли в компании регламент для такой ситуации? Можем ли мы на что-то опереться или необходимо изобретать что-то заново?
- Что из необходимых действий можно автоматизировать, поручить роботу? А есть ли у вас такой робот или его нужно создавать? Робот, кстати, вполне может стать частью мониторинга, который вы создаете, а его применение потребует привлекать меньше людей в дежурную смену (затраты на персонал, ага), снизит простои и их влияние на выручку (мы же помним еще для чего все это делаем?). Так что уделите этому вопросу должное внимание.
- На что еще могут повлиять запланированные нами действия? Не затронут ли они другие части ЦОД? Как это можно учесть? Возможно, вместе с тем, что необходимо сделать для устранения аварии нужно что-то еще. Привлечь специалистов из другого ЦОД, снизить мощность, перераспределить нагрузку, вызвать подрядчиков… Предупредить клиентов, в конце концов. Продумайте и запланируйте это.
Ответы, которые вы дадите на этом шаге, станут основой процессов эксплуатации ЦОД. Возможно, при проработке вы столкнетесь с ситуацией, когда придется менять процессы, существующие в вашей компании, или вводить новые. Не пугайтесь, это нормально. Фиксируйте необходимые изменения и переходите к следующему шагу.
Шаг шестой. Процессы проработаны, осталось разобраться с их информационным обеспечением. Ответьте на следующие вопросы:
- Как участники процесса будут узнавать о необходимости совершения действий?
- Как понять, что участник процесса узнал о том, что именно нужно делать?
- Как понять, что участники что-то делают? А также понять, что они делают то, что нужно?
- Какая информация необходима каждому участнику процесса чтобы отработать максимально эффективно?
Очень важный и интересный этап. Нужно детально разбираться в том, что люди делают по вашим поручениям. Представлять в деталях, какие у привлекаемых сотрудников возможности и обязанности. Четко знать возможности доступных средств коммуникации. И, скорее всего, по результатам обследования что-то из этого придется изменить – подправить процессы, изменить круг обязанностей, поработать со средствами коммуникации. Но все это для благой цели – “правильного” мониторинга.
Шаг седьмой, последний. На основании проделанной работы необходимо разработать и внедрить систему мониторинга, в которой реализовать:
- Набор источников данных и метрик, которые вы выделили как необходимые.
- Систему состояний и триггеров, которые опишут все ваши опасения.
- Визуализацию, которая позволит сотрудникам быстро и качественно понять, что происходит.
- Систему оповещений, которая заставит придуманный вами “механизм” работать.
- Систему контроля за процессом (включая SLA), которая не даст вашему “механизму” давать сбои или заглохнуть.
Для наглядности мы изобразили на рисунке описанное выше в виде цепочки последовательных шагов. И назвали эту цепочку – “Алгоритм реализации правильного мониторинга” :-). Пользуйтесь!
Не нужно пугаться сложности или объемов описанного алгоритма. Да, работа большая. Да, она затрагивает не только технические аспекты, но касается и массы других вопросов. Да, на действующей системе такие вопросы решать сложно и иногда болезненно. Но, поверьте опыту авторов, решать их нужно. И от качества их решения напрямую зависит качество мониторинга, который получится в итоге. А, значит – и качество сервисов вашего ЦОД, успешность бизнеса и удовлетворенность клиентов. Для чего, собственно, все и делается.
Описанные в статье выводы, алгоритмы и логические конструкции сделаны не просто так, “из любви к искусству”. Это – методики, которые мы применяем в процессе разработки и реализации систем мониторинга для наших заказчиков. Методики, которые помогают сделать наших заказчиков более успешными, уверенными в том, что их ЦОД находится под надежным контролем. И которые, в конечном итоге, дадут им все основания рекомендовать нас как профессионального поставщика современных решений мониторинга ЦОД.