Гетерогенный кластер | ЛИТ/ОИЯИ
 
Платформа "HybriLIT"

Экосистема для задач машинного обучения, глубокого обучения и анализа данных

Описание экосистемы ML/DL/HPC

Активное внедрение нейросетевого подхода, методов и алгоритмов машинного обучения и глубокого обучения (ML/DL) для решения широкого спектра задач обусловлено многими факторами. К основным из них можно отнести развитие вычислительных архитектур, особенно при использовании методов DL при обучение сверточных нейронных сетей, а также развитие библиотек, в которых реализованы широкое многообразие алгоритмов, и фрейворков, позволяющих быстро строить различные модели нейросетей. Для обеспечения всех этих возможностей как по разработке математических моделей и алгоритмов, так и для проведения ресурсоемких расчетов, в том числе на графических ускорителях, позволяющих существенно сокращать время вычислений, для пользователей платформы HybriLIT создана и активно развивается экосистема для задач ML/DL и анализа данных.


Видео «Знакомство с ML/DL/HPC Экосистемой»

Полезные ссылки:

Рассказывает Оксана Стрельцова, заместитель руководителя группы по гетерогенным вычислениям, ЛИТ ОИЯИ

Видеоматериалы подготовлены А.С. Воронцовым


Экосистема для ML/DL/HPC задач и анализа данных

Экосистема имеет следующие компоненты (Рис.1.):

  • HPClab component— предназначена для проведения расчетов на вычислительных узлах платформы HybriLIT, разработки приложений и научной визуализации — https://jlabhpc.jinr.ru;
  • Educational component — предназначена для разработки моделей и алгоритмов на базе JupyterHub –многопользовательской платформы по работе с Jupyter Notebook (известный как IPython c возможностью работы в web-браузере) — https://studhub.jinr.ru, https://studhub2.jinr.ru;
  • Computation component — предназначена для проведения ресурсоемких, массивно-параллельных расчетов, например, для обучения нейронных сетей с использованием графических ускорителей NVIDIA Volta — https://jhub1.jinr.ru, https://jhub2.jinr.ru.

Параметры виртуальной машины (VM) для первой компоненты и серверов для второй и третьей компонент представлены на Рисунке1.

Третья компонента содержит по 4 графических ускорителя NVIDIA Tesla V100 32 GB в серверах jhub1и jhub2.

На Рисунке 2 приведены наиболее часто используемые библиотеки и фреймворки, установленные на компонентах, для решения задач ML/DL и анализа данных.

pic.2.
РИСУНОК 2: ЭКОСИСТЕМА ДЛЯ ЗАДАЧ ML/DL, ПОСТРОЕННАЯ НА МНОГОПОЛЬЗОВАТЕЛЬСКОМ СЕРВИСЕ JupyterHub (A multi-user version of the Notebook)


Работа в рамках экосистемы ML/DL/HPC

Для начала работы необходимо:
  1. Войти под своей учетной записью HybriLIT в GitLab:

https://gitlab-hybrilit.jinr.ru/

  1. Войти на компоненты (авторизация осуществляется через GitLab):
Компонента для разработки
(без использования графических ускорителей)
Компонента для проведения ресурсоемких расчетов
(с использованием графических ускорителей NVIDIA)
Компонент для высокопроизводительных вычислений на узлах платформы HYbriLIT и анализа данных
(JupyterHub и SLURM)

https://studhub.jinr.ru

https://studhub2.jinr.ru

https://jhub1.jinr.ru

https://jhub2.jinr.ru

https://jlabhpc.jinr.ru/

Jupyter Notebook

После авторизации открывается интерактивная среда Jupyter Notebook:

Для пользователей доступны их домашние директории, размещённые на файловой системе NFS/ZFS или Lustre.

Начало работы в Jupyter Notebook

Создать директорию:

Переименовать директорию:

— правой кнопкой мыши нажать на папку, выбрать из выпадающего меню «Rename» или выбрать папку и нажать «F2». Имя папки не должно содержать пробелов!

Создать файл Python3:

— нажать на иконку «Python3»

Добавить новую вкладку (New Launcher):

MATLAB в среде JupyterHub:

— нажать на иконку «MATLAB», далее следовать инструкции

Подробнее о работе в среде Jupyter Notebook