28 декабря 2021 г.

Интерес к суперкомпьютерам вызван результатами осеннего рейтинга TOP 500, объединяющего мощнейшие суперкомпьютеры планеты, в котором резко возросло количество российских систем. Тематика высокопроизводительных вычислений (High Performance Computing, HPC) гораздо шире и интересней, но рассмотрение ситуации начнем с результатов рейтинга.

Ударный год

В актуальном рейтинге мощнейших вычислительных систем мира — напомним, что ТОР 500 обновляют два раза в год — российских суперкомпьютеров стало семь, причем за единственным исключением они сосредоточены в первой половине списка. В осенний рейтинг вошли три новых суперкомпьютера от «Яндекса» ( «Червоненкис», занявший 19 место в рейтинге, «Галушкин», разместившийся на позиции 36, и «Ляпунов» с позиции 40), два от «Сбера» (новый Christofari Neo и Christofari, занявшие позиции 43 и 72, соответственно), а также Lomonosov-2 (№ 241), работающий в МГУ, и Grom от МТС (№ 294).

Заметим, что в рейтинге за первое полугодие 2021 российских систем было только 3, так что прогресс в уходящем году очень выразительный! Всего в ноябрьском рейтинге около семи десятков новых систем, причем больше половины из них составляют однотипные суперкомпьютерные системы производства Lenovo, массово устанавливаемые в организациях КНР. Прогресс с российскими суперкомпьютерами, конечно, налицо, но в целом ситуация еще не радостная.

В национальном рейтинге внутри TOP 500 по общему количеству попавших в список систем РФ поднялась с 11 на 9/10 место, разделив позицию с Южной Кореей, при этом обойдя, например, Бразилию, но недотянув до Голландии. На фоне тройки глобальных лидеров парк из российских семи систем выглядит бледно: по количеству национальных суперкомпьютеров лидируют Китай (у него их 173 штуки — более трети глобального парка из ТОР 500!), США (149) и Япония (32).

Однако, если посмотреть на тройку лидеров по суммарной производительности систем в ТОП 500, порядок иной: США (32,5%), Япония (20,7%), Китай (17,5%). В число лидеров по суммарной производительности систем из рейтинга также входят Германия, Франция, Нидерланды, Канада, Великобритания, Южная Корея и Россия. У РФ теперь суммарная производительность машин из списка составляет 73,715 Пфлопс, что несколько ниже, чем у Южной Кореи (82,177 Пфлопс). В сумме мощность всех семи российских суперкомпьютерных систем рейтинга составляет сейчас одну шестую от мощности лидера — японского суперкомпьютера Fugaku — отметил Сергей Абрамов, директор Института программных систем имени Айламазяна Российской Академии Наук, в интервью «Российской газете».

Что такое суперкомпьютер?

Определение суперкомпьютера так и не создано, хотя история высокопроизводительных вычислений в современном понимании длится более полувека. Наиболее объективным является шуточное определение из восьмидесятых — «суперкомпьютер должен весить более тонны» — но на практике оно малоприменимо. Определение «система, значительно опережающая по производительности большинство компьютеров» является более актуальным, но остается слишком расплывчатым в силу быстрого роста вычислительных мощностей. Напомним, что производительность, доступная суперкомпьютерным системам, перешагнула рубеж 1 Гфлопс в 1983 году, 1 Тфлопс — в 1996, 1 Петафлопс — в 2008. Рубеж в 1 Экзафлопс, согласно прогнозам, должен был быть преодолен в 2020-2021 годах, но пока этого не случилось, во всяком случае, для систем, данные по которым открыты официально.

Современный суперкомпьютер — это вычислительный кластер, объединяющий большое количество компьютерных систем, соединенных друг с другом локальной высокоскоростной магистралью. Горизонтальное масштабирование производительности, применяемое в такой схеме, требует предварительной подготовки вычислительных задач к распределению по разным системам, настроенным для работы в комплексе. Теоретически возможно и вертикальное масштабирование производительности, в котором приложения используют возможности аппаратных и программных архитектур, распределяющих вычисления между ресурсами в границах одной системы. Но сегодня такой вариант почти не используют, так как он не обеспечивает производительности, характерной для современных НРС.

Создание суперкомпьютера, как видно, представляет собой задачу по разработке сбалансированного вычислительного кластера. Команды специалистов, создающие «сверхЭВМ», должны обладать рядом профильных компетенций, а также иметь налаженные технические связи с поставщиками компонент (Intel, AMD, Nvidia), а также с лидерами проектирования сложных вычислительных решений (IBM, Hewlett Packard Enterprise, Lenovo и т. д.). Суперкомпьютеры — штучные решения, поэтому их создание и балансировка представляет собой сложную задачу, хотя и вполне решаемую. Разумеется, воплощение суперкомпьютера «в железе» тоже требует профильных «железных» компетенций.

Суперкомпьютеры и канал

Вычислительные системы, обладающие производительностью уровня суперкомпьютеров, могут быть спроектированы и созданы «по месту», а могут быть приобретены в виде готовых решений. Конечно, суперкомпьютеры не являются «коробочным товаром» в традиционном понимании, выбор их конфигурации и балансировки требует серьезных процессов R&D. Также следует помнить, что монтаж и запуск кластера потребует решения ряда инженерных задач для обеспечения энергопитания и реализации теплоотвода. Однако продвинутый интегратор справится со всем спектром задач и вполне способен поставить решение «под ключ», что мы и наблюдаем. Например, в конце года корпорация Softline установила суперкомпьютер Nvidia DGX A100 в Санкт-Петербургском государственном электротехническом университете, и вуз получил современную платформу для подготовки специалистов в области Data Science, «искусственного интеллекта», машинного и глубокого обучения. Заметим, что это вполне канальная история. «Мы являемся авторизованным партнером Nvidia по системам DGX и активно наращиваем темпы сотрудничества», — отметил Антон Юдин, менеджер по развитию направления Nvidia в корпорации Softline.

Суперкомпьютерные системы присутствуют в предложении Hewlett Packard Enterprise. Напомним, что вендор обладает топовыми компетенциями в НРС, а также некогда приобрел фирму Cray, имя которой долгое время было нарицательным для суперкомпьютеров. Сегодня HPE Cray доступен в формате стандартной 19-дюймовой стойки, в которую смонтированы серверы Apollo 2000 Gen10 Plus на процессорах AMD (напомним, что эти системы включены в список «Десять лучших новых продуктов на рынке ИТ-инфраструктуры» по версии CRN в 2021 году). Есть более производительное решение HPE Cray EX, в шкафах которого применено прямое жидкостное охлаждение всех компонентов.

Важно, что системы Cray оснащены технологией сетевого подключения HPE Slingshot, построенной на основе 64-портовых коммутаторов с высокой размерностью, которые позволяют масштабировать систему до сотен тысяч узлов в топологии Dragonfly, обеспечивая связь между любыми конечными точками с помощью трех ретрансляций. К своим суперкомпьютерам НРЕ может поставить системы хранения данных Cray ClusterStor E1000, спроектированные для особо эффективного удовлетворения высоких потребностей суперкомпьютерных решений в операциях ввода-вывода.

От истории к «облаку»

Объединить вычислительные системы для параллельных вычислений в составе единого комплекса можно разными способами. Например, распределенные вычисления успешно реализованы на платформе BONIC (Berkeley Open Infrastructure for Network Computing), изначально созданной для проекта SETI, который направлен на обработку радиосигналов из космоса. Использование платформы показало прекрасные результаты.

Волонтеры, желающие принять участие в проекте SETI, устанавливали клиент BONIC на свои локальные системы. Клиент мог работать только при запущенном скринсейвере, то есть когда пользователь временно не использовал компьютер в интерактивном режиме. В автоматическом режиме утилита получала фрагменты данных с серверной составляющей BONIC, которые занимались распараллеливанием вычислений, и самостоятельно возвращала обратно результаты обработки. Общая мощность распределенной вычислительной сети достигла 320 Пфлопс! Заметим, что SETI был наиболее известным проектом на платформе BONIC и самым масштабным — в нем приняли участие более 5 млн человек до его закрытия в 2020 году — но были и другие аналогичные, созданные для вычислений в задачах математики, климатологии, молекулярной биологии, химии и т. д. Платформа доступна и в настоящее время.

Сейчас аналогичные проекты для распределенных вычислений реализуют в «облаках», причем тоже успешно. Например, в ноябре 2021 года компания YellowDog, разработчик решений для управления «облачными» рабочими нагрузками и ресурсами, объявила о создании распределенного суперкомпьютера, работающего на базе мощностей Amazon Web Services. В решении задачи по заказу биотехнологической компании OMass Therapeutics было объединено 3,2 млн виртуальных компьютеров из дата-центров в Северной Америке и Западной Европе. Это сравнимо с масштабами проекта SETI за 20 лет его существования, только в данном случае развертывание шло заметно быстрее: первый миллион виртуальных систем к «облачному» суперкомпьютеру был подключен через 7 минут после старта, а отметка в 2 млн была достигнута через 11 мин. Аналогичный проект, созданный Descartes Labs с использованием «облака» Amazon для обработки данных дистанционного анализа поверхности Земли, получил производительность в 9,95 Пфлопс, что соответствует месту № 41 в ТОР 500, по заявлению представителей компании. Разворачивание заняло 9 часов и обошлось в 5 тыс. долл, а стоимость оборудования для построения традиционного суперкомпьютера подобной мощности составила бы порядка 25 млн долл., и заняло многие месяцы, если не годы.

Аналогичные решения предлагают и российские компании. Например, CloudMTS сделал доступным ряд инструментов для виртуальных НРС-вычислений на аппаратной базе Nvidia и Huawei, причем обладающих возможностями как горизонтального, так и вертикального масштабирования. Как и другие «облачные» сервисы, cloud-системы для суперкомпьютерных вычислений интересны как гибкостью, так и удобным форматом оплаты «по потребленному» (Pay as You Go). В продвижении своих ресурсов для НРС компания МТС делает особый упор на легкость применения ресурса — полнофункциональная панель самообслуживания для управления инфраструктурой, по заявлению компании, столь же проста, как и для традиционных «облачных» задач.

Через «облако» можно получать доступ и к ресурсам традиционных суперкомпьютеров. Такую возможность, например, предоставляет «Сбер». «Клиенты SberCloud получат доступ к мощностям сразу двух суперкомпьютеров», — говорит Давид Рафаловский, исполнительный вице-президент «Сбербанк Груп», а также подчеркивает легкость в использовании нового суперкомпьютера Christofari Neo, который интегрирован с платформой ML Space.

Заметим, что распределенные и «облачные» суперкомпьютеры универсальны, в отличие от квантовых вычислений, которые в ряде случаев показывают производительность на уровне суперкомпьютеров, а иногда превосходя их на многие порядки!

Квантовые вычисления: внедрение будет быстрым

В 2023 году квантовые вычисления будут доступны в 76% центрах обработки данных, представляющих сервисы НРС-вычислений — такие данные по глобальному рынку получили Atos и IQM в ходе совместного исследования. Как видно, вычисления радикально новых типов станут доступны массово. К каким изменениям это приведет на рынке?

Изменения в результате внедрения квантовых вычислений будут революционными, но нишевыми. Дело в том, что квантовые компьютеры, в отличие от традиционных, не являются универсальными. Существует ряд задач, в которых квантовые вычисления демонстрируют на многие порядки более высокие скорости, чем доступны на сегодняшний день традиционным суперкомпьютерам. Например, есть вычисления, которые даже для современных суперкомпьютеров являются неподъемными, так как требуют сотен лет непрерывной работы традиционных систем, а квантовые справляются с ними за минуты! Но количество таких вычислений совсем невелико.

Математики уже придумали, как применить возможности квантовых вычислений для ряда практических задач, в частности оптимизации (в стиле классических «задач коммивояжера»), моделировании сложных систем, машинного обучения и ряда проблем информационной безопасности. «Квантовые вычисления способны усовершенствовать методы решения как научных, так и бизнес-задач», — уверен Стефано Перини, пресс-секретарь и соруководитель европейской практики квантовых вычислений в IDC. Действительно, доступность квантовых вычислений откроет широчайшие возможности для научных, инженерных и экономических расчетов, что позволит проектировать новые материалы, разрабатывать лекарственные препараты, изменить криптоанализ, оптимизировать логистику и т. д. Подчеркнем, что перечисленное станет реальностью только после создания развитой экосистемы квантовых вычислений, а она пока существует в зачаточном состоянии. «Задача — сделать квантовый компьютер более простым и доступным», — говорит Андрей Солуковцев, директор департамента технологических решений IBM в России, Центральной Азии и Азербайджане, отмечая, что создатели квантовых компьютеров работают уже не столько над физической реализацией систем, сколько над прикладными кейсами.

Как видно, что квантовые вычисления — даже массовые, доступные и с экосистемой — будут дополнять обычные, а не заменять! Заметим, что аналогичная ситуация существует и в других типах квантовые технологий, в которых присутствуют не только квантовые вычисления, но также квантовые коммуникации, квантовая метрология и сенсорика. Появление квантовых компьютеров не снизит актуальности традиционных вычислений — потребности в универсальных вычислительных мощностях будут расти, причем во всех типах: суперкомпьютерных, серверных, «облачных», на локальных ПК и EDGE.

В настоящее время квантовые суперкомпьютеры проблемны в эксплуатации из-за жестких требований к охлаждению. Однако в среднесрочной перспективе ситуация может измениться стараниями японских ученых. Специалисты корпорации NTT и Токийского университета при поддержке Института естественных наук (Рикэн) намерены к 2030 году создать новый квантовый компьютер, главным отличием которого будет возможность работы при комнатных температурах и, как следствие, отсутствие необходимости системы криоохлаждения.

Вместо заключения

Суперкомпьютеры используют для практических задач с нарастающей активностью. Например, «Яндекс» нагружает свои суперкомпьютеры для обучения нейросетевых моделей с миллиардами параметров. В результате, по заявлению компании, «Переводчик» точнее и быстрее переводит тексты, картинки и видео, «Директ» точнее отбирает релевантную рекламу, «Поиск» составляет и ранжирует быстрые ответы, а «Алиса» поддерживает естественный диалог с пользователем. Аналогичные задачи решают системы «Сбера», первыми доступ к которым получили команды SberDevices и Sber AI. «Суперкомпьютер Christofari Neo позволит „Сберу“ вывести скорость обучения моделей на новый уровень, что откроет нам новые возможности в реализации прорывных сервисов и продуктов, использующих самые передовые технологии», — говорит г-н Рафаловский.

Акцент на вычисления, связанные с AI, выражен почти повсюду. Например, Atos и Nvidia объявили о создании лаборатории Excellence AI Lab (EXAIL), которая объединяет ученых и исследователей для содействия развитию компьютерных технологий, образования и исследований в Европе. Первые исследовательские проекты лаборатории будут нацелены на 5 ключевых областей, требующих сочетания высокопроизводительных вычислениях и AI: исследование климата, здравоохранение и геномика, гибридизация с квантовыми вычислениями, AI на EDGE-системах (прежде всего, «компьютерное зрение») и кибербезопасность.

Проектирование, моделирование, «data mining», криптовычисления и другие задачи, требующие сложных вычислений, становятся необходимы для data-driven-бизнеса и являются локомотивами современной экономики. «На базе MTS GROM мы будем развивать самые перспективные технологии, связанные с „искусственным интеллектом“, анализом больших данных и „облачными“ решениями, — говорит Олег Мотовилов, директор „облачного“ бизнеса МТС. — Суперкомпьютер MTS GROM призван повысить технологичность компании, а также лечь в основу будущих сервисов, которые бизнес и научные организации смогут получить в „облаке“ #CloudMTS, значительно экономя».

Еще раз подчеркнем, что суперкомпьютерные вычисления сегодня доступны через «облачные» сервисы для компаний любого размера и из любой точки страны.

Источник: Александр Маляревский, внештатный обозреватель CRN/RE