Гетерогенный кластер | ЛИТ/ОИЯИ
 
Платформа "HybriLIT"

NEW

Мы завершили обновление платформы и перешли на AlmaLinux 9.6. В связи с этим хотели бы обратить ваше внимание на несколько изменений:

  1. Новые очереди для HybriLIT и Govorun;
  2. Система модулей Lmod используется вместо Modules;
  3. Изменились домашние директории пользователей:
    /zfs/store5.hydra.local/user/l/login — домашняя директория пользователя, предназначенная для редактирования файлов, сборки и компиляции программ.
    /lustre/projects/l/login — директория пользователя для проведения расчетов, хранения и обработки данных.
  4. Рекомендуемый порядок работ на платформе описан здесь.

Также сообщаем, что в настоящее время продолжается копирование файлов из предыдущего хранилища в вашу текущую директорию /lustre/projects. Этот процесс может занять некоторое время. Просим не беспокоиться — все ваши данные сохранены и будут полностью перенесены. Кроме того, на платформе установлены обновленные версии прикладных программных пакетов.


Рекомендуемые шаги работы на платформе HybriLIT

Типичный рабочий процесс на платформе состоит из нескольких шагов:

  1. подключение к кластеру,
  2. подготовка файлов в домашней директории,
  3. копирование данных в файловую систему проектов для вычислений,
  4. запуск задач через SLURM
  5. сохранение результатов

Шаги работы

  1. Подключение к платформе
    Подключение к кластеру осуществляется по SSH:
    ssh hydra.jinr.ru -l <login>


    После входа вы окажетесь в вашей домашней директории.

  2. Работа в домашней директории (HOME, ZFS)
    Путь:
    /zfs/store5.hydra.local/user/l/login/

    Назначение:
    Домашняя директория предназначена для:
    редактирования исходных файлов
    сборки и компиляции программ
    хранения конфигурационных файлов
    подготовки скриптов для запуска задач
    Квота: 100 GB

  3. Загрузка программного обеспечения через Lmod
    На платформе используется система модулей Lmod для управления программным обеспечением.

    Просмотреть доступные программы: module avail
    Просмотреть загруженные модули: module list

    Загрузить модуль
    : module load <module_name>


    Пример:
    module load gcc
    module load openmpi


    После загрузки необходимых модулей вы можете компилировать программы или подготавливать окружение для запуска задач

  4. Копирование файлов в файловую систему проектов (PROJECTS, Lustre)
    Перед запуском вычислений рекомендуется копировать данные и скрипты в файловую систему проектов: /lustre/projects/l/login/

    Назначение: Данная файловая система предназначена для:
    • входных данных задач
    • промежуточных файлов
    • результатов вычислений
    Она оптимизирована для параллельного ввода-вывода и работы вычислительных задач.
    Квота: Для пользователей квота не установлена.


    Пример копирования файлов: cp input.dat /lustre/projects/l/login/

  5. Запуск задачи через SLURM
    Для запуска вычислений необходимо подготовить job-скрипт SLURM и отправить задачу в очередь. 

    Отправка задачи: sbatch job.sh


    Планировщик SLURM распределит задачу на вычислительные узлы кластера.

  6. Получение результатов
    После завершения задачи в рабочей директории появится файл вывода: slurm-<jobid>.out


    Также все файлы, созданные вашей программой, будут находиться в директории проекта.

  7. Копирование результатов обратно в HOME
    Важные результаты рекомендуется копировать обратно в домашнюю директорию для хранения или дальнейшей обработки:
    cp results.dat /zfs/store5.hydra.local/user/l/login/