20 сентября 2021 г.

Александр Сысоев

Кризис полупроводников не вечен, однако он может скорректировать планы по модернизации ИТ-инфраструктуры многих компаний и откатить их по параметрам требуемой отказоустойчивости и надежности на годы назад. Что делать в подобной ситуации, рассказывает Александр Сысоев, руководитель направления вычислительной инфраструктуры КРОК.

Сроки поставок вычислительного оборудования увеличились в два раза, по некоторых типам систем период ожидания примерно равен одному году. Это следует воспринимать как неизбежное зло, так как решить проблему на глобальном уровне вряд ли возможно — причиной дефицита стали одновременно и нехватка производственных мощностей у поставщиков чипов, и потребность в дополнительной компьютерной и ИТ-технике во время пандемии. При этом выйти из ситуации не под силу ни производителям, ни дистрибьюторам, ни ИТ-компаниям, поставляющим оборудование: складских запасов нет фактически ни у кого. Однако, можно воспользоваться хорошо зарекомендовавшими себя инструментами и попробовать повысить эффективность использования инфраструктуры, пока оборудование едет.

Мы проанализировали запросы клиентов, сталкивающихся с длительными сроками поставок оборудования, и пришли к выводу, что наиболее востребованными услугами для них в текущих условиях могут стать облака (как временная мера), продление срока службы существующего оборудования за счет сервисной поддержки и поиск недоутилизированных серверных ресурсов.

Как выжать из инфраструктуры максимум?

Последняя услуга — оптимизация вычислительной инфраструктуры — наиболее перспективна. Откровенно говоря, в ней нет ничего нового или экстраординарного. В крупных и зрелых компаниях есть даже соответствующий процесс — «Управление мощностями». В нем задействованы штатные специалисты на постоянной основе. Однако в средних организациях, либо в тех, в которых не выстроен контроль эффективности использования отдельных серверов, подобный мониторинг может помочь найти дополнительные мощности. А они будут как нельзя кстати в текущей ситуации.

Короткий аудит позволяет выявить «кандидатов» на оптимизацию. К слову, подобная услуга полезна не только при дефиците оборудования. В нашей практике были случаи, когда подобные обследования инициировали новые ИТ-директора, чтобы понять, почему основная нагрузка приходится всего на 10% имеющихся систем, и зачем тогда нужны все остальные. При слияниях и поглощениях это также актуально, так как перед интеграцией систем важно понимать, что из оборудования и в каком состоянии стоит на балансе. Примечательно, что при подобном «перетряхивании» можно обнаружить массу интересного. Например, серверов-призраков, закупленных ранее под проекты, но и в итоге не использованных. И такие случае не единичны в нашей практике. В целом, если судить по опыту крупных компаний, при парке от 50 до 100 серверов усредненный параметр утилизации центрального процессора на всех серверах может быть равен 10%. Следовательно, найти незадействованные ресурсы можно практически всегда. Но важно понимать, как правильно перебалансировать нагрузку между системами, чтобы не пострадали бизнес-сервисы.

Такой оптимизационный аудит можно провести самостоятельно или с привлечением подрядчика. Все работы занимают около недели. При этом применяются специальные утилиты — по большей части свободное ПО или утилиты производителей платформ. Для каждого типа инфраструктуры они различны. Например, для оценки утилизации виртуальных машин (CPU/RAM/Disk) используется утилиты гипервизоров (rvtools, hyper-v inventory), а для физических серверов — утилиты централизованного сбора данных в сети, например Live Optics, MAP Toolkit. Затем делается срез конфигурации, в том числе во времени. В результате собирается статистика по параметрам (время отклика, задержка и т.д.). На основе этой информации можно обнаружить неоптимальные процессы и затем их «починить». В частности, можно виртуализовать физические серверы, перераспределить ресурсы по кластерам виртуализации, устранить причины аномальных нагрузок отдельных серверов, перенести часть виртуальных машин в облако. В одной лизинговой компании реализация подобных рекомендаций позволила оптимизировать половину имеющегося парка, из этого объема у 20% систем повышена утилизация, остальное перенесено на более производительное оборудование и в облако.

Результат анализа виртуальной инфраструктуры (пример)

Неиспользуемые виртуальные машины

  • На основе собранных данных анализируются виртуальные машины, которые не используются и/или находятся в выключенном состоянии. В разделе приводится перечень таких машин. Заказчику рекомендуется провести их ревизию и определить целесообразность их наличия.
  • Приводятся характеристики VM для таких машин: CPU, RAM, дисковое пространство, которые могут использованы под альтернативные цели.

Ненагруженные виртуальные машины

Анализируются виртуальные машины с аномально низкой нагрузкой или утилизацией ресурсов:

  • ресурсы которых используются на аномально небольшой процент;
  • обращений и I/O операций к которым нетипично мало;
  • доступ к которым осуществлялся крайне длительное время назад.

Приводятся характеристики виртуальных машин. Заказчику рекомендуется провести их ревизию и уточнить актуальность их использования.

Оптимизация потребляемых вычислительных ресурсов виртуальных машин

Приводится список виртуальных машин, хостов и кластеров, для которых могут быть оптимизированы ресурсы. В течение аудита анализируется потребление вычислительных ресурсов с учетом показателей переподписки и указывается объем возможного сокращения vCPU, RAM GB в разрезе виртуальных машин, хостов, кластеров.

Оптимизация потребляемых ресурсов хранения. Рекомендации по перераспределению вычислительных ресурсов и ресурсов хранения

Приводится перечень дисковых ресурсов — аллоцированных и потребляемых. Указываются неиспользуемые ресурсы в разрезе VM/datastore, которые могут быть потенциально высвобождены.

Общие сведения о загрузке кластера виртуализации

Приводятся общие сведения о кластерах и хостах виртуализации для понимания общего понимания параметров подсистемы. Уточняется, насколько конфигурация виртуальных машин и среды виртуализации выполнена корректно и не требует существенной переработки. К таким данным относятся:

  • количество виртуальных машин;
  • консолидация;
  • количество памяти;
  • количество доступной памяти;
  • количество процессоров;
  • количество доступных процессоров;
  • соревнования за ресурсы.

Свод рекомендаций по оптимизации платформ виртуализации

  • отключение виртуальных машин;
  • оптимизация ресурсов виртуальных машин;
  • оптимизация распределения ресурсов по хостам;
  • оптимизация использования хостов.

Задача на засыпку: как повысить эффективность систем хранения?

Поиск недоутилизированных ресурсов в СХД сложнее, чем в серверах, так как существует зависимость от типов данных, но и здесь есть варианты. Поиск и удаление либо архивирование устаревших файлов (журналы, временные файлы, неактуальные архивные копии и др.) помогает высвободить на локальных дисках сервера и выданных серверу томах СХД дополнительную емкость. Для поиска резервов обычно используются утилиты платформ СХД, работающие на блочном уровне. Они позволяют проанализировать тип доступа к данным и параметры производительности в метриках (IOPS, latency, throughput) и понять, насколько тип дисков/носителей «подходит» для лежащих на нем данных. Также используются утилиты отдельных производителей (встречаются, в частности, среди ПО резервного копирования). Они работают на файловом уровне обычно внутри операционной системы. Такие утилиты дают возможность определить, какие файлы наиболее востребованны, а к каким не обращались более пяти лет (таких обычно очень много).

В целом, некой альтернативой своим системам может стать аренда в коммерческих ЦОД. Однако нужно помнить, что возможности провайдеров предоставить нужное оборудование также ограничены. И об использовании современного нового и индивидуально спроектированного программно-аппаратного комплекса речь не идет — его нужно заказывать и ждать те же самые четыре месяца (в лучшем случае).

Сложная ситуация с поставками продлится еще примерно год. Острая фаза придется на ближайшие шесть месяцев. Кажется, будто это не настолько продолжительный период времени, чтобы переживать о срыве ИТ-проектов. Однако на фоне кризиса полупроводников усиление конкуренции в период пандемии (особенно среди компаний, развивающих клиентские онлайн-приложения) и значительно большая, чем раньше, потребность в цифровых сервисах могут осложнить жизнь компаний. Представленные выше инструменты помогают перераспределить ресурсы в пользу важных задач и временно решить вопрос с мощностями.

Источник: Александр Сысоев, руководитель направления вычислительной инфраструктуры КРОК