Гетерогенный кластер | ЛИТ/ОИЯИ
 
Платформа "HybriLIT"

Инструкция по работе на Гетерогенной платформе HybriLIT

  1. Вход на платформу с помощью SSH-клиента
  2. Системы хранения и обработки данных на платформе
  3. Создание исполняемого файла
  4. Планировщик задач SLURM
  5. Выполнение задачи

Вход на платформу с помощью SSH-клиента

Для работы на платформе необходимо соединиться с Пользовательским интерфейсом с помощью SSH-клиента. Для работы на платформе необходима активная учётная запись HybriLIT (login/password)!

В операционной системе Windows можно использовать встроенный SSH-клиент:

  • Нажать Win+R, ввести cmd.exe, нажать Enter.

  • Затем в новом окне набрать команду

    нажать Enter и ввести  password.

Можно использовать отдельный SSH-клиент, например, PuTTY или MobaXterm. Для его настройки обратитесь к соответствующей инструкции на сайте SSH-клиента.

В среде Linux можно использовать встроенный SSH-клиент:

После успешной аутентификации и авторизации SSH-клиент соединится с одним из Пользовательских интерфейсов (space01 ~ space08) и начнётся интерактивный сеанс работы на платформе.

Системы хранения и обработки данных на платформе

Для пользователя на платформе доступен ряд сетевых файловых систем.

Домашняя директория пользователя: /zfs/store5.hydra.local/user/l/login
Домашняя директория пользователя предназначена для входа на Пользовательский интерфейс, редактирования файлов, сборки и компиляции программ. Данная директория имеет следующие особенности:

  1. на эту директорию установлена квота в 100 GB на каждого пользователя;
  2. эта директория не доступна на вычислительных узлах платформы.

Директория пользователя для хранения и обработки данных: /lustre/projects/l/login
Директория пользователя для хранения и обработки данных предназначена для размещения исполняемых файлов, входных и выходных файлов при выполнении счётных задач на платформе. Данная директория имеет следующие особенности:

  1. на этой директории не установлена квота;
  2. эта директория доступна на вычислительных узлах платформы.

Директория пользователя для быстрой обработки данных (Lustre «12×12»): /lustre/scratch/l/login
Директория пользователя для быстрой обработки данных предназначена для обработки массивно-параллельных задач, использующих интенсивный ввод-вывод данных. Данная директория имеет следующие особенности:

  1. эта директория размещена на файловой системе Lustre «12×12», имеющей специальную архитектуру, оптимизированную для операций ввода-вывода данных;
  2. в этой директории не гарантируется сохранение файлов, дата размещения которых более 90 дней.

Резервная директория пользователя для обработки данных (NFS/ZFS): /zfs/scratch/l/login
Резервная директория пользователя для обработки данных, размещённая на файловой системе NFS/ZFS, предназначена для запуска задач, связанных с обработкой большого количества файлов небольшого размера.
Данная директория имеет следующие особенности:

  1. эта директория размещена на файловой системе ZFS, подключенной к вычислительным узлам по протоколу NFS;
  2. эта директория является резервной для случаев, когда счётной задаче пользователя необходимо обрабатывать большое количество небольших файлов;
  3. в этой директории не гарантируется сохранение файлов, дата размещения которых более 90 дней.

Создание исполняемого файла

Для создания исполняемого файла необходимо выполнить следующие действия:

  • Подготовить текст программы

Для создания текста программы необходимо вызвать текстовый редактор (например, vi , nano , mcedit) и создать текст программы.
Также можно скопировать файл с текстом программы со своего локального компьютера по протоколу SCP с помощью специальных программ. В среде Windows для этой задачи можно использовать программу WinSCP, в среде Linux — команду scp

  • Подключить необходимое программное обеспечение

На Платформе для пользователя доступно большое количество программных пакетов, компиляторов и библиотек, размещённых в репозитории CVMFS. Для обращения к установленному программному обеспечению (ПО) используется система Lmod, позволяющая настроить переменные окружения интерактивного сеанса, чтобы можно было обратиться к выбранному ПО. Основные команды системы Lmod:

вывести список установленного ПО;

подключить выбранное ПО (например, Intel 2021.1);

вывести список подключённого ПО;

отключить выбранное ПО (Intel 2021.1);

отключить всё подключенное ПО.

  • Выполнить компиляцию программы

Для получения исполняемого (бинарного) файла необходимо выполнить компиляцию программы с помощью выбранного компилятора (например, icc).

Планировщик задач SLURM

На платформе используется планировщик задач SLURM, который выполняет несколько задач:

  • принимает счётные задачи на счёт и осуществляет их запуск в соответствии с приоритетами, зависящими от параметров счётной задачи и свободных вычислительных ресурсов;
  • управляет вычислительными ресурсами и распределяет их между счётными задачами;
  • ведёт учёт потреблённых вычислительных ресурсов по выполненным счётным задачам и является источником первичных данных для статистики использования платформы.

Основные команды планировщика SLURM (для пользователя):

вывести список очередей;

вывести детальные данные по очередям;

вывести список задач в очереди;

вывести список задач и время запуска;

поставить задачу на счёт;

показать параметры задачи;

снять задачу со счёта.

По умолчанию пользователю доступна очередь knl, которая входит в состав учебно-тестового полигона HybriLIT. Данная очередь позволяет запускать учебные, тестовые и короткие задачи (до 24 часов) для проверки работы программы.

Пользователям, получившим доступ к суперкомпьютеру «Говорун», также будут доступны следующие очереди — для расчётов с использованием CPU: cascade, для расчётов с использованием графических ускорителей NVIDIA V100 и NVIDIA A100: dgx и ampere, соответственно.

Для пользователей экспериментов BMN, MPD, а также пользователей из числа сотрудников Лаборатории теоретической физики (ЛТФ) доступны отдельные очереди bmn, mpd и bltp для выполнения массивной обработки данных.

Выполнение задачи

Для постановки задачи на счёт необходимо выполнить ряд следующих действий:

  • Подготовить скрипт для планировщика SLURM

  1. Параметр задаёт счётную очередь:
  2. Параметр задаёт время счёта в минутах:
  • Скопировать рабочую директорию на Систему хранения и обработки данных

  • Поставить задачу на счёт

Перейти в свою директорию на Системе хранения и обработки данных и поставить задачу на счёт.

Через некоторое время задача начнёт выполняться. Результат работы будет записан в лог-файл с именем slurm-#jobid.out.

  • Забрать результаты счёта (если это необходимо)

После завершения счёта можно скачать результаты счёта на свой рабочий компьютер по протоколу SCP, аналогично пункту Создание исполняемого файла — Подготовить текст программы.