30 июля 2025 г.

Окончание. Начало тут и тут

Одно из наиболее активно растущих направлений отечественного ИТ-рынка связано, как и в мире в целом, с различными приложениями искусственного интеллекта. Отличаются ли системы для решения ИИ-задач от высоконагруженных решений более общей направленности?

ИИ кому это нужно?

«Коммерческие ЦОДы в последние несколько лет получили ещё одну специализацию, — ИИ, — соглашается Андрей Крюков, менеджер по продукту, CyberPower. — Если раньше серверная инфраструктура была универсальной, а впоследствии — вычислительной и ориентированной на хранение данных, то теперь к ним добавилась инфраструктура с ИИ-вычислителями (в роли которых выступают специализированные серверные платы расширения картами или мощные видеокарты). Требования к SLA данных ЦОДов определяются бизнес-задачей (если это собственный ЦОД) либо ценой сбоя вычислительного процесса Тут к ЦОД будут применяться привычные рекомендации Uptime Institute в части организации резервирования. С точки зрения ИБП такие дата-центры как правило изначально проектируются с расчётом на повышенную мощность, требуют оборудования с возможностью горячей замены всех модулей, обширными опциями масштабирования и развитого (иногда даже с привлечением ИИ) мониторинга».

Применение для ИИ-задач высокомощного оборудования и СХД больших объёмов влечёт за собой, по словам Станислава Гапонова, менеджера по развитию трёхфазного направления Powercom, повышение требуемой подводимой к ЦОД электрической мощности, а также более продвинутых систем по отведению тепла соответственно.

Основной задачей ИИ-компонентов в современных программных решениях Денис Дякив, исполнительный директор НТЦ «Веллинк», видит обработку большого объёма данных, их разметку, кластеризацию, выявление корреляций и так далее: «По сути, это те же операции в единицу времени, о которых я говорил ранее. Поэтому да, при создании систем с ИИ-компонентам требуется решать те же задачи, что и для высоконагруженных систем: производительность железа, транспорта, оптимизация кода и так далее».

Дмитрий Рагушин, руководитель направления развития бизнеса, «Тринити», указывает, что в отличие от классических серверов, которые ориентированы на линейную нагрузку — например, базы данных или веб-сервисы, — ИИ-системы требуют пиковой вычислительной мощности, работы с большими массивами данных в реальном времени и минимальных задержек: «Условно говоря, если обычный сервер можно „разогреть“ до нагрузки, то ИИ-сервер должен быть готов работать „на максимуме“ сразу и стабильно. Серверы для ИИ — это, как правило, плотные GPU-решения с особыми требованиями к питанию и тепловому режиму. Мы проектируем узлы с поддержкой четырёх, шести и даже восьми ускорителей, с усиленным питанием и продвинутой системой охлаждения. Кроме того, здесь критично NVMe-хранилище с высокой параллельностью операций — иначе ускорители просто будут простаивать в ожидании данных. Интеграция такой платформы требует внимательной работы с компоновкой, балансировки PCIe-ресурсов, настройки BIOS, прошивок, чтобы добиться стабильной и предсказуемой производительности».

«Недавно, — продолжает эксперт, — мы запустили собственное подобное решение — „Тринити Нейро“, которое объединяет российскую серверную платформу и ИИ-платформу DeepSeek. Это программно-аппаратный комплекс нового поколения, построенный на базе оборудования, внесённого в реестр Минпромторга, и рассчитанный на работу с масштабируемыми языковыми и мультимодальными моделями. С технической точки зрения, „Тринити Нейро“ — это высокопроизводительная система с поддержкой до 192 вычислительных ядер, до 8 Тбайт ОЗУ и с конфигурациями, включающими самые современные графические ускорители. При этом гибридная архитектура позволяет эффективно обрабатывать данные в разных форматах — текст, аудио, видео — с минимальной задержкой».

На первый план при решении ИИ-задач, как указывает Михаил Гилязов, директор по работе с заказчиками компании «Скала^р», выходит коллаборация с партнёрами: «Так, в рамках ЦИПР 2025 „Скала^р“ запустила программу сотрудничества с российскими разработчиками ИИ-платформ для формирования открытой экосистемы партнёрств. Это значит, что каждый продукт будет проходить тестирование на совместимость и отбираться по прикладной ценности и технологической устойчивости. Это будет способствовать развитию экосистемы прикладных ИИ-решений, готовых к внедрению в on-premise среды с повышенными требованиями к надёжности, изоляции и контролю. В свою очередь, наши заказчики смогут получить возможность подбора необходимых элементов в свою инфраструктуру из набора проверенных модулей».

По словам Игоря Лопатина, директора по исследованиям и разработкам OpenYard, системы для ИИ-задач отличает не только характер вычислений (массовые параллельные операции, интенсивная работа с матрицами, большой объем операций с весами), но и критичность в отношении архитектуры данных: «Например, обучение моделей ИИ чувствительно к латентности при передаче обучающих данных, а процесс их исполнения (инференс) — к задержкам при обслуживании запросов. По нашему направлению компетенций такие системы требуют, прежде всего:

  • GPGPU-серверов высокой плотности, поддерживающих современные ускорители и скоростную передачу данных, обеспечиваемую технологиями PCIe Gen 5 и NVLink;
  • СХД, оптимизированных под поточный доступ и параллельные чтение/запись;
  • Инфраструктуры охлаждения и питания, способной поддержать функционирование серверов, потребляющих 3–4 кВт на юнит при установке нескольких карт GPGPU;
  • Надёжной сети: как внутри узла (высокоскоростные шины, например, UPI или CXL), так и в масштабах ЦОД (RDMA, InfiniBand, сети на базе высокоскоростного Ethernet).

ИИ-системы предъявляют к инфраструктуре более узкоспециализированные требования, чем „общие“ HPC- или транзакционные платформы, и именно поэтому в нашем портфеле выделены специализированные продуктовые линии под такие задачи — от серверов до дисковых массивов».

«Объединять в один сегмент высоконагруженные системы общей направленности с системами для искусственного интеллекта точно не стоит, — замечает Максим Терещенко, директор по продажам Delta Computers. — Это абсолютно разные по своему принципу инфраструктурные решения. Приложения для искусственного интеллекта требуют большого количества графических ускорителей/графических ядер, в отличие от собственно высоконагруженных систем, где требуются в большом количестве исключительно вычислительные ядра и оперативная память. В этом сегменте мы представлены на российском рынке тоже довольно ярко. В портфеле компании Delta Computers представлен единственный российский аналог NVIDIA HGX, — платформа для задач искусственного интеллекта Delta Sprut».

Александр Петьков, менеджер по продукту компании «DатаРу Технологии», напоминает, что при выборе инфраструктуры важно понимать специфику планируемой нагрузки,чтобы достичь максимальной эффективности, масштабируемости и производительности систем: «Инфраструктурные требования ИИ и HPC существенно различаются. Системы искусственного интеллекта требуют высокой вычислительной плотности, GPU с поддержкой FP16/INT8, NVMe-хранилищ для обработки неструктурированных данных и сверхбыстрых сетей. Всё это является основой для ускоренного обучения моделей и масштабируемого инференса. В свою очередь, HPC-нагрузки ставят во главу угла точность и надёжность. Здесь ключевую роль играют FP64-вычисления, мощные многоядерные процессоры, большой объём памяти и условия для эффективного масштабирования кластера с минимальной задержкой между узлами».

Вот и по мнению Сергея Андриевского, технического директора компании «Инферит Облако» (входит в экосистему «Инферит», ГК Softline), ИИ-системы — это особая категория, выходящая за рамки традиционных высоконагруженных решений: «В первую очередь из-за специфики нагрузки: обучение моделей требует колоссального объёма параллельных вычислений и работы с большими массивами данных в режиме реального времени. Это накладывает требования:

  • к типу вычислительных ресурсов (GPU, AI-ускорители);
  • к СХД (NVMe-массивы с низкой задержкой, параллельные файловые системы);
  • к сети (InfiniBand или высокоскоростной Ethernet);
  • к системам электропитания и охлаждения (включая жидкостные решения в перспективе).

По сути, ИИ-инфраструктура — это уже не просто „облако с высокой нагрузкой“, а специализированная среда, и строить её приходится под конкретные модели и задачи».

Специфика службы

Есть ли какая-то особая специфика именно у провайдерского высоконагруженного оборудования — в отличие от предназначенного для решения задач в частных машинных залах, — которое призвано непрерывно решать критичные для бизнеса множества клиентов задачи одновременно?

«С точки зрения наших ИБП, — говорит Андрей Крюков, — это надёжность, модульность, масштабируемость, гибкость системы и современный мониторинг с привлечением ИИ. А также, бесспорно, критически важны компетенции специалистов вендора — равно как и его совместная работа с проектировщиками и эксплуатантами заказчика».

Дмитрий Рагушин описывает специфику данного сектора ИТ-рынка следующим образом: «Провайдеры закупают не кастомные решения, а универсальные платформы, пригодные под широкий круг задач — от классической виртуализации до ИИ-сценариев. При этом у них крайне жёсткие требования по плотности, энергопотреблению, ремонтопригодности. И часто — необходимость размещать bare metal-серверы, то есть работать с „голым железом“, без гипервизоров, для повышения производительности или из-за требований клиентов. Для нас это означает более высокие требования к качеству сборки, к надёжности компонентов, к способности поставлять узлы серийно, в больших объёмах и с минимальной вариативностью по партиям. Мы адаптировали часть линеек именно под такие задачи — с учётом 24/7-режима, удалённого управления и резерва по ресурсам».

По словам Сергея Андриевского, особенности облачного «высоконагруженного» оборудования заключаются в другом масштабе требований: «Во-первых, к унификации и стандартизации платформ для ускоренного развёртывания и обслуживания. Во-вторых, строгие требования к охлаждению и электропитанию из-за высокой плотности размещения. Ещё один важный момент — гибкость конфигураций, чтобы была возможность использовать bare-metal-инфраструктуру для задач, не терпящих виртуализации (например, баз данных в in-memory режиме, ИИ-инференс). В то же время наблюдается спрос на многоуровневую сетевую инфраструктуру, включая SDN-решения, чтобы можно было изолировать трафик различных клиентов при сохранении производительности».

Высокие требования, продолжает эксперт, предъявляются к резервированию и отказоустойчивости по всей цепочке — от питания до хранения: «Рост ИТ-аутсорсинга и облачных моделей в России продолжается, несмотря на технологические вызовы. Облако становится не просто альтернативой on-premises, а более гибким и прагматичным инструментом, особенно в условиях неопределённости. И чем выше нагрузка и критичность систем — тем более востребованной становится модель „инфраструктура как услуга“».

Источник: Максим Белоус, IT Channel News