Гетерогенный кластер | ЛИТ/ОИЯИ
 
Платформа "HybriLIT"

Гетерогенная платформа «HybriLIT»


Гетерогенная вычислительная платформа HybriLIT является частью Многофункционального информационно-вычислительного комплекса Лаборатории информационных технологий имени М.Г. Мещерякова ОИЯИ. Платформа представляет собой многокомпонентную систему, состоящую из Учебно-тестового полигона и суперкомпьютера «Говорун». Суперкомпьютер «Говорун» используется для проведения высокопроизводительных и массивно-параллельных вычислений, позволяя решать широкий спектр научно-прикладных задач ОИЯИ, в том числе для экспериментов мега-сайенс проекта NICA. Все компоненты Платформы объединены единой программно-информационной средой, позволяющей пользователям применять доступные пакеты прикладных программ и разрабатывать собственные приложения, проводить расчёты с использованием различных типов вычислительных архитектур (CPU и GPU).

Основными компонентами Платформы являются – Вычислительное поле, представленное суперкомпьютером «Говорун» и учебно-тестовым полигоном, Система хранения данных, представленная рядом сетевых файловых систем (NFS/ZFS и Lustre), Система распространения программного обеспечения, реализованная на базе менеджеров лицензий (FlexLM/MathLM) и сетевой файловой системы в режиме чтения (CernVM-FS), Пользовательских интерфейсов, предоставляющих доступ к всем ресурсам Платформы в различных режимах, Системные сервисы, обеспечивающие работу вычислительных узлов в составе кластера и суперкомпьютера, Информационные сервисы, предназначенные для информационной поддержки пользователей

Программно-аппаратная структура и сервисы Платформы

Программно-информационная среда

Гетерогенная платформа HybriLIT  имеет единую трехуровневую программно-информационную среду для Учебно-тестового полигона и  суперкомпьютера «Говорун».

На системном уровне программно-информационной среды находятся базовые программные компоненты, обеспечивающие функционирование всей системы в целом. Системное программное обеспечение включает в себя операционную систему, batch-систему, файловые системы и другие компоненты, необходимые для управления аппаратными и программными ресурсами. Важным компонентом системного уровня являются сервисы мониторинга, позволяющие следить за работоспособностью и загруженностью Платформы.

Программный уровень предоставляет пользователям возможность разрабатывать собственные приложения с использованием компиляторов, библиотек и технологий для массивно-параллельных вычислений, применять установленное прикладное ПО и использовать специализированные сервисы.

Информационный уровень включает в себя различные сервисы, которые способствуют взаимодействию пользователей с группой HybriLIT. Эти сервисы значительно облегчают работу пользователей, предоставляют доступ к необходимой информации и позволяют обмениваться данными.

Программно-информационная среда Платформы

Системный уровень

На системном уровне размещены базовые программные компоненты, обеспечивающие функционирование Платформы в качестве вычислительной системы. Системное программное обеспечение включает в себя инструменты для разворачивания и управления операционной системой, систему аутентификации и авторизации пользователей, менеджер ресурсов и планировщик задач, сетевые файловые системы и систему распространения прикладного программного обеспечения. Важным компонентом системного уровня являются сервисы мониторинга, позволяющие следить за работоспособностью и загруженностью Платформы.

Программный уровень

На программном уровне размещены пакеты прикладных программ, сервисы для интерактивной работы пользователей с ресурсами Платформы.

Сервис HLIT-VDI предназначен для работы с пакетами прикладных программ (Comsol, Wolfram Mathematica, Maple, Matlab и другие), использующими графический интерфейс, в режиме удалённого рабочего стола с помощью клиента X11 (TurboVNC Viewer) на виртуальных машинах, размещённых на выделенном сервере с графическим ускорителем Nvidia Tesla M60.

Экосистема ML/DL/HPC разработана командой HybriLIT на основе многопользовательской среды JupyterLab для работы с Jupyter Notebook. Данная среда используется для решения задач машинного и глубокого обучения с использованием фреймворков TensorFlow, PyTorch, Keras, позволяющих проводить обучение моделей нейронных сетей на графических ускорителях.

В рамках развития Платформы на ресурсах экосистемы ML/DL/HPC для решения задач, связанных с разработкой квантовых алгоритмов и применением симуляторов квантовых вычислений, развивается Полигон для квантовых вычислений. На текущий момент для пользователей доступны следующие симуляторы — Cirq, Qiskit, PennyLane, QuTiP.

В рамках совместного проекта BIOHLIT разработан информационный сервис с применением методов ML/DL для разметки и анализа фото- и видеоматериалов экспериментов с мелкими лабораторными животными, подвергнутыми ионизирующему излучению.

Членами коллаборации эксперимента MPD мега-сайенс проекта NICA на выделенных ресурсах суперкомпьютера «Говорун» разрабатывается специализированные ПО: веб-сервис MPD EventDisplay — для визуализации структуры детектора MPD, визуализации экспериментальных данных и представления информации о зарегистрированных событиях, Parametric Database — ряд баз данных для хранения настроек и параметров подсистем детектора MPD, текущих настроек подсистем и параметров пучка, а также визуализации событий в режиме реального времени в ходе сеанса.

Для обработки данных экспериментов мега-сайенс проекта NICA на различных ресурсах МИВК применяется распределённая система выполнения счётных задач DIRAC interware. Вычислительные ресурсы суперкомпьютера «Говорун» были интегрированы в систему DIRAC interware и активно используются для обработки данных эксперимента MPD.

Информационный уровень

На данном уровне размещены информационные сервисы, помогающие пользователям в работе на Гетерогенной вычислительной платформе HybriLIT:

  • Веб-сайт HybriLIT
  • Система GitLab — сервис для совместной параллельной работы над одним или несколькими проектами.
  • Проект HybriLIT user support — проект, реализованный в системе Project Management Service, для консультирования и решения возникающих вопросов пользователей по работе на Платформе.
  • Телеграм канал HybriLIT user support — для оперативного информирования пользователей.
  • Python-инструментарий — в рамках совместного проекта ЛИТ и ЛТФ по моделированию гибридных наноструктур сверхпроводник/магнетик разработан пакет инструментов в виде Jupyter Notebook [1] и [2] которые размещены в формате электронных публикаций Jupyter Book.

Режимы работы с ресурсами Платформы

Работа пользователей с ресурсами Платформы возможна в двух режимах :

  • с помощью планировщика задач (в режиме очередей SLURM). Преимуществом данного режима работы является возможность использовать все вычислительные ресурсы суперкомпьютера «Говорун».
  • в интерактивном режиме с помощью клиентов и веб-браузеров. Режим для работы с программами с графическим интерфейсом (в режиме удалённого рабочего стола HLIT-VDI) и через веб-браузер для работы с экосистемой ML/DL/HPC и Полигоном для квантовых вычислений. К преимуществам работы в данном режиме можно отнести возможность вести разработку и отладку алгоритмов и сразу же визуализировать результаты выполнения кода.
Режимы работы пользователей с ресурсами Платформы

Мобильный вычислительный комплекс MobiHybriLIT

Для проведения практических занятий в Государственном университете «Дубна» и для проведения выездных учебных курсов используется Мобильный вычислительный комплекс с графическими ускорителями Nvidia Quadro P1000 с установленной программной средой, соответствующей среде платформы HybriLIT.