Гетерогенный кластер | ЛИТ/ОИЯИ
 
Платформа "HybriLIT"

Разработка системы аккаунтинга и обработки статистики использования вычислительных ресурсов суперкомпьютера «Говорун»

Д.В. Беляков, М.Х. Киракосян, М.А. Любимова, Д.В. Подгайный, О.И. Стрельцова

 Лаборатория информационных технологий, Объединённый институт ядерных исследований

Для оценки эффективности использования вычислительных ресурсов суперкомпьютера необходимо осуществлять мониторинг производительности, накопление и анализ статистики использования вычислительных ресурсов. С этой целью разработана система аккаунтинга, визуализации и анализа статистики использования вычислительных ресурсов суперкомпьютера «Говорун», на основе Business Intelligence системы Yandex DataLens. Источником данных для разработанной системы является база данных планировщика задач SLURM.

Разработанная система предназначена для внутреннего использования системными администраторами и руководством суперкомпьютера «Говорун». Она предоставляет информацию о том, как используются вычислительные ресурсы различными группами пользователей, а также позволяет выявлять тенденции в использовании ресурсов.

Пользовательский интерфейс системы

Разработанная система представляет статистику по использованию вычислительных ресурсов в виде интерактивных гистограмм, таблиц и индикаторов. Для управления сортировкой в элементах системы доступны селекторы, которые позволяют сортировать данные по годам и по счётным очередям или одновременно по обоим параметрам. В элементе таблица доступна сортировка по любому столбцу по возрастанию или убыванию.

На главной странице (Рис. 1) представлена общая обезличенная статистика использования вычислительных ресурсов суперкомпьютера «Говорун», которая включает данные за всё время накопления статистики и охватывает все группы пользователей. Группы сформированы по месту работы пользователя (лаборатории ОИЯИ), а сотрудники сторонних организаций объединены в группу «Institutes». Для каждой группы предусмотрена отдельная вкладка с подробной информацией: количество пользователей, количество запущенных задач, затраченные ядро-часы, использованные ресурсы и персональные данные каждого участника. В отдельной вкладке представлена сводная таблица со всеми пользователями и их данными.

Также в системе представлена информация о загруженности файловой системы Lustre, включающей в себя размер домашней директории пользователя, персональные данные и дату последнего входа на суперкомпьютер.

Рисунок 1. Система аккаунтинга. Элемент главной страницы.

Главная страница содержит три информационных блока со статистикой: общая, по группам пользователей и по ресурсам.

Общая статистика

Общая статистика представлена в виде индикаторов, показывающих количество счётных задач, общее количество затраченных ядро-часов, отдельно количество CPU/GPU счётных задач и количество затраченных CPU ядро-часов и GPU часов.  Это даёт первичное представление о загруженности вычислительных ресурсов суперкомпьютера «Говорун» (Рис.2).

Рисунок 2. Сравнение количества задач по годам.

Сводная статистика по всем группам пользователей

Отображение статистики по группам пользователей включает в себя несколько представлений. Распределение пользователей по лабораториям в процентном соотношении представлено в виде круговой диаграммы (Рис.3), что помогает оценить, насколько востребованы вычислительные ресурсы каждой лабораторией.

Рисунок 3. Распределение пользователей по лабораториям.

Общее количество счётных задач и затраченных CPU ядро-часов и GPU часов для каждой группы, а также количество счётных задач, использующих CPU и GPU ресурсы, и, соответственно, количество затраченного времени по ресурсам, показано в сводной таблице (Рис.4).

Рисунок 4. Таблица «Группы». Статистика за 2025 г.

Статистика по наиболее ресурсоёмким проектам ОИЯИ, в том числе MPD, BM@N и проектам Лаборатории теоретической физики, представлена в виде таблицы и гистограммы (Рис. 5).

Рисунок 5. Статистика по наиболее ресурсоемким проектам. Статистика за 2025 г.

Статистика по ресурсам

Блок статистики по ресурсам показывает данные об использовании счётных очередей и типов ресурсов.

Для визуализации распределения нагрузки по счётным очередям используются две гистограммы (Рис. 6). Гистограмма слева показывает количество запущенных на счёт задач в каждой очереди, гистограмма справа — затраченные CPU часы. Обе гистограммы позволяют оценивать нагрузку на каждую очередь с позиции востребованности.

Рисунок 6. Распределение нагрузки по счетным очередям. Статистика за 2025 г.

Особый интерес представляет распределение нагрузки по типам ресурсов (Рис.7), поскольку данное распределение используется при принятии решений по вопросам модернизации вычислительных ресурсов суперкомпьютера «Говорун».

Рисунок 7. Распределение нагрузки по типам ресурсов.

Статистика по группам пользователей

Статистика по группам пользователей позволяет оценивать вклад группы в использование вычислительных ресурсов, а также выявлять наиболее активных пользователей в соответствующей группе (Рис. 8, 9).

Рисунок 8. Страница группы LHEP.
Рисунок 9. Страница группы «Institutes». Статистика за 2025 г.

Статистика по пользователям

Во вкладке «All users» (Рис.10) представлена информация о всех пользователях суперкомпьютера «Говорун» в виде сводной таблицы. Функция поиска по логину или имени/фамилии обеспечивает быстрый поиск информации о конкретном пользователе. В зависимости от сортировки в столбцах таблицы можно получить рейтинг самых активных пользователей по количеству запущенных на счет задач или потребленных CPU и GPU часов. Рейтинг доступен как по всем ресурсам суперкомпьютера, так и по каждой счетной очереди.

Рисунок 10. Страница «All users». Статистика за 2025 г.

Во вкладке «FS/Last login» представлена информация об использовании системы хранения данных – персональные данные пользователей, дата последнего входа на суперкомпьютер, размер домашних директорий пользователей в терабайтах (TB), размещенных на файловой системе Lustre (Рис. 11).

Данная информация позволяет системным администраторам визуально отслеживать загруженность файловой системы, выявлять наиболее активных пользователей с точки зрения занимаемого пространства.

Рисунок 11. Станица «FS/Last login».

Система аккаунтинга, визуализации и анализа статистики использования вычислительных ресурсов суперкомпьютера «Говорун» позволяет системным администраторам и руководству суперкомпьютера отслеживать использование ресурсов, выявлять тенденции, а также оценивать вклад различных групп пользователей.

Благодаря интерактивным гистограммам, таблицам и индикаторам можно получить полное представление об использовании вычислительных ресурсов, вкладе отдельных лабораторий и проектов, а также выполнить аккаунтинг работы пользователей суперкомпьютера «Говорун». Система позволяет сортировать данные по различным параметрам, что упрощает анализ и выявление закономерностей.

Результаты работы были доложены на 11th International Conference «Distributed Computing and Grid Technologies in Science and Education» (GRID’2025):

  • Разработка системы аккаунтинга и обработки статистики использования вычислительных ресурсов суперкомпьютера «Говорун»
    Мария Любимова, Дмитрий Беляков, Маргарит Киракосян, Дмитрий Подгайный, Оксана Стрельцова

Публикации:

  • Д.В. Беляков, М.Х. Киракосян, М.А. Любимова, Д.В. Подгайный, О.И. Стрельцова. Функциональные возможности системы аккаунтинга и обработки статистики использования вычислительных ресурсов суперкомпьютера «Говорун» // Физика элементарных частиц и атомного ядра — ПРИНЯТО К ПЕЧАТИ