- Описание экосистемы ML/DL/HPC
- Видео «Знакомство с ML/DL/HPC Экосистемой»
- Экосистема для ML/DL/HPC задач и анализа данных
- Работа в рамках экосистемы ML/DL/HPC
Описание экосистемы ML/DL/HPC
Активное внедрение нейросетевого подхода, методов и алгоритмов машинного обучения и глубокого обучения (ML/DL) для решения широкого спектра задач обусловлено многими факторами. К основным из них можно отнести развитие вычислительных архитектур, особенно при использовании методов DL при обучение сверточных нейронных сетей, а также развитие библиотек, в которых реализованы широкое многообразие алгоритмов, и фрейворков, позволяющих быстро строить различные модели нейросетей. Для обеспечения всех этих возможностей как по разработке математических моделей и алгоритмов, так и для проведения ресурсоемких расчетов, в том числе на графических ускорителях, позволяющих существенно сокращать время вычислений, для пользователей платформы HybriLIT создана и активно развивается экосистема для задач ML/DL и анализа данных.
Видео «Знакомство с ML/DL/HPC Экосистемой»
Полезные ссылки:
Рассказывает Оксана Стрельцова, заместитель руководителя группы по гетерогенным вычислениям, ЛИТ ОИЯИ
Видеоматериалы подготовлены А.С. Воронцовым
Экосистема для ML/DL/HPC задач и анализа данных
Экосистема имеет следующие компоненты (Рис.1.):
- HPClab component— предназначена для проведения расчетов на вычислительных узлах платформы HybriLIT, разработки приложений и научной визуализации — https://jlabhpc.jinr.ru;
- Educational component — предназначена для разработки моделей и алгоритмов на базе JupyterHub –многопользовательской платформы по работе с Jupyter Notebook (известный как IPython c возможностью работы в web-браузере) — https://studhub.jinr.ru, https://studhub2.jinr.ru;
- Computation component — предназначена для проведения ресурсоемких, массивно-параллельных расчетов, например, для обучения нейронных сетей с использованием графических ускорителей NVIDIA Volta — https://jhub1.jinr.ru, https://jhub2.jinr.ru.
Параметры виртуальной машины (VM) для первой компоненты и серверов для второй и третьей компонент представлены на Рисунке1.
Третья компонента содержит по 4 графических ускорителя NVIDIA Tesla V100 32 GB в серверах jhub1и jhub2.
На Рисунке 2 приведены наиболее часто используемые библиотеки и фреймворки, установленные на компонентах, для решения задач ML/DL и анализа данных.
Работа в рамках экосистемы ML/DL/HPC
Для начала работы необходимо:
- Войти под своей учетной записью HybriLIT в GitLab:
https://gitlab-hybrilit.jinr.ru/
- Войти на компоненты (авторизация осуществляется через GitLab):
Компонента для разработки (без использования графических ускорителей) |
Компонента для проведения ресурсоемких расчетов (с использованием графических ускорителей NVIDIA) |
Компонент для высокопроизводительных вычислений на узлах платформы HYbriLIT и анализа данных (JupyterHub и SLURM) |
https://jlabhpc.jinr.ru/ |
Jupyter Notebook
После авторизации открывается интерактивная среда Jupyter Notebook:
Для пользователей доступны их домашние директории, размещённые на файловой системе NFS/ZFS или Lustre.
Начало работы в Jupyter Notebook
Создать директорию:
Переименовать директорию:
— правой кнопкой мыши нажать на папку, выбрать из выпадающего меню «Rename» или выбрать папку и нажать «F2». Имя папки не должно содержать пробелов!
Создать файл Python3:
— нажать на иконку «Python3»
Добавить новую вкладку (New Launcher):
MATLAB в среде JupyterHub:
— нажать на иконку «MATLAB», далее следовать инструкции