Гетерогенный кластер | ЛИТ/ОИЯИ
 
Платформа "HybriLIT"

Суперкомпьютер «Говорун»


О суперкомпьютере

27 марта в рамках сессии Комитета Полномочных Представителей правительств государств-членов ОИЯИ состоится презентация нового суперкомпьютера, названного в честь Николая Николаевича Говоруна, с именем которого с 1966 года связано развитие информационных технологий в ОИЯИ.

Суперкомпьютер «Говорун» — совместный проект Лаборатории теоретической физики им. Н.Н. Боголюбова и Лаборатории информационных технологий, поддержанный дирекцией ОИЯИ.

Проект нацелен на кардинальные ускорения комплексных теоретических и экспериментальных исследований в области ядерной физики и физики конденсированных сред, проводимых в ОИЯИ, в том числе для комплекса NICA.

Суперкомпьютер является естественным развитием гетерогенной платформы HybriLIT и приведет к существенному увеличению производительности как CPU, так и GPU-компонент платформы. Модернизированный вычислительный кластер позволит проводить ресурсоемкие, массивно-параллельные расчеты в решеточной квантовой хромодинамике для исследования свойств адронной материи при высокой плотности энергии и барионного заряда и в присутствии сверхсильных электромагнитных полей, качественно повысит оперативность моделирования динамики столкновений релятивистских тяжелых ионов, откроет новые возможности для исследования свойств сильно-коррелированных систем в области физики новых материалов, а также позволит разрабатывать и адаптировать программное обеспечение для мега-проекта NICA на новые вычислительные архитектуры от основных лидеров рынка HPC – Intel и NVIDIA, создать программно-аппаратную среду на базе HPC и готовить IT-специалистов по всем необходимым направлениям.

Расширение CPU-компоненты осуществлено на базе специализированной для HPC инженерной инфраструктуре на технологии контактного жидкостного охлаждения, реализуемой российской компанией ЗАО «РСК Технологии». Эта компания является лидером на российском рынке в области HPC-решений на жидкостном охлаждении, которые базируются на ряде собственных уникальных разработок, позволяющих создавать сверхкомпактные и энергоэффективные HPC-системы с высокой вычислительной плотностью. Расширение GPU-компоненты осуществлено на базе вычислительных серверов последнего поколения с графическими ускорителями NVIDIA Volta. Поставку оборудования и пуско-наладочные работы в рамках создания кластера с GPU-компонентой на базе NVIDIA выполнил системный интегратор IBS Platformix.


Технические характеристики

Посмотреть технические характеристики на сайте группы компаний РСК


CPU компонента

Компания ЗАО «РСК Технологии» разработала обновленное сверхплотное, масштабируемое и энергоэффективное кластерное решение, которое представляет собой набор компонент для создания современных вычислительных систем различного масштаба с 100% жидкостным охлаждением в режиме «горячая вода». Оно включает высокопроизводительные вычислительные узлы на базе процессоров Intel Xeon Phi и Intel Skylake SP (Scalable Processor) в сочетании с высокоскоростным коммутатором Intel Omni-Path с аналогичным охлаждением «на горячей воде».

13 место в Top50 — 1070TFLOPS пиковой производительности с одинарной точностью

Specifications
Характеристики

RSC Tornado nodes based on Intel® Xeon Phi:

  • Intel® Xeon Phi 7190 processors (72 cores)
  • Intel® Server Board S7200AP
  • Intel® SSD DC S3520 (SATA, M.2)
    96GB DDR4 2400 GHz RAM
  • Intel® Omni-Path 100 Gb/s adapter
RSC Tornado nodes based on Intel® Xeon® Scalable gen 2 (TDN511):

  • Intel® Xeon® Platinum 8268 processors (24 cores)
  • Intel® Server Board S2600BP
  • Intel® SSD DC S4510(SATA, M.2),
    2x Intel® SSD DC P4511 (NVMe, M.2) 2TB
  • 192GB DDR4 2933 GHz RAM
  • Intel® Omni-Path 100 Gb/s adapter

Посмотреть технические характеристики сервера-лезвия РСК Торнадо TDN511

RSC Tornado nodes based on Intel® Xeon® Scalable gen 2 (TDN511S):

  • Intel Xeon Platinum 8280 processors (28 cores)
  • Intel® Server Board S2600BP
  • Intel® SSD DC S4510(SATA, M.2),
    2x Intel® SSD DC P4511 (NVMe, M.2) 2TB / 4x Intel® (PMem) 450 GB
  • 192GB DDR4 2933 GHz RAM
  • Intel® Omni-Path 100 Gb/s adapter

Посмотреть технические характеристики сервера-лезвия РСК Торнадо TDN511S


GPU компонента

NVIDIA DGX-1 – это первая система, разработанная специально для задач глубокого обучения. В основе системы лежит новое поколение графических процессоров, которые обеспечивают скорость обработки данных, сравнимую с 250 серверами x86 архитектуры.

Характеристики
В состав HybriLIT входит 5 серверов DGX-1 с вычислительными процессорами двух типов:

      • два процессора Intel Xeon E5-2698 v4 20 cores;
      • восемь графических ускорителей NVIDIA Tesla V

со следующими аппаратными характеристиками:

CPU 80 cores
GPU 8 cards
RAM 512 GB
Storage 7.6 TB
NVLink bandwidth 300 GB/s
Ethernet 10 Gbit/s
InfiniBand 40 Gbit/s

Заявленная производительность NVIDIA Tesla V100

Double precision 7.8 Tflops
Single precision 15.7 Tflops
Deep learning 125 Tflops


Системы хранения данных

Работа с базами данных на СК «Говорун»

СК «Говорун» содержит сетевую систему хранения РСК Storage on-Demand, представляющую собой единую централизованно управляемую систему и имеет несколько уровней хранения данных — очень горячие данные, горячие данные и теплые данные.

  1. Система хранения очень горячих данных создана на основе четырёх серверов-лезвий РСК Торнадо TDN511S. В каждый сервер установлено 12 высокоскоростных твёрдотельных дисков с низкой латентностью Intel® Optane™ SSD DC P4801X 375GB M.2 Series с технологией Intel® Memory Drive Technology (IMDT), что позволяет получить 4,2 ТБ для очень горячих данных на каждом сервере.
  2. Система хранения горячих и теплых данных состоит из статической системы хранения с параллельной файловой системой Lustre, созданной на основе 14 серверов-лезвий РСК Торнадо TDN511S, и динамической РСК Storage on-Demand на 84 серверах-лезвиях РСК Торнадо TDN511 с поддержкой параллельной файловой системы Lustre и распределенной объектной системы хранения DAOS.

Для быстрого доступа к метаданным файловой системы Lustre без задержек используются твёрдотельные диски с низкой латентностью Intel® Optane™ SSD DC P4801X 375GB M.2 Series. Для хранения горячих данных Lustre используются твердотельные диски Intel® SSD DC P4511 (NVMe, M.2).

В состав модуля сетевой инфраструктуры входят коммуникационная и транспортная сеть, сеть управления и мониторинга и сеть управления заданиями. Сервера NVIDIA DGX-1 соединены между собой коммуникационной и транспортной сетью на базе технологии InfiniBand 100 Gbps, а связь этой компоненты с CPU модулем осуществляется посредством Intel OmniPath 100 Gbps. 3.5. Коммуникационная и транспортная сеть CPU модуля использует технологию Intel OmniPath 100 Гбит/с и построена по топологии «утолщенного дерева» на базе 48-портовых коммутаторов Intel OmniPath Edge 100 Series с полным жидкостным охлаждением.

Не менее важной частью архитектуры СК «Говорун» является программное обеспечение управления суперкомпьютером РСК БазИС. РСК БазИС использует операционную систему CentOS Linux версии 7.8 на всех вычислительных узлах (ВУ) и выполняет следующие функции:

  • осуществление мониторинга вычислительных узлов с функционалом аварийного отключения в случае обнаружения критических неисправностей (таких как перегрев ВУ);
  • осуществляет сбор показателей функционирования компонент коммуникационной и транспортной сети;
  • осуществляет сбор показателей производительности вычислительных узлов – загруженность процессоров и оперативной памяти;
  • хранение отслеживаемых показателей с возможностью просмотра статистики за заданный интервал времени (не менее одного года);
  • сбор показания интегрального индикатора состояния ВУ и отображение на геометрическом виде стойки вычислителя;
  • отображение статуса системы обнаружения протечек по датчикам контроля влажности на вычислительных узлах и отображение на геометрическом виде стойки вычислителя;
  • отображение эффективности использования выделенных ресурсов через планировщика SLURM пользователю кластера для определенной задачи в виде показателя средней загрузки выделенных пользователем ЦП (%);
  • отображение доступности ВУ по вычислительной сети и сети управления на геометрическом стойки вычислителя.