Д.В. Беляков¹, Д.Г. Дереза², М.И. Зуев¹, Г.А. Карпов², М.П. Лебедев², М.А. Сказкин²
¹ Объединённый институт ядерных исследований, Дубна, Россия
² Дальневосточный Федеральный Университет, Владивосток, Россия
На Гетерогенной платформе HybriLIT применяется несколько различных систем мониторинга, которые позволяют отслеживать работу компонент платформы и осуществлять мониторинг нагрузки на вычислительные ресурсы.
- Мониторинг системы охлаждения суперкомпьютера «Говорун» (РСК, [1]). Система охлаждения суперкомпьютера «Говорун» организована на основе жидкостного охлаждения. Для контроля работы узлов регулирования подачи охлаждающей жидкости применяется специализированное ПО, разработанное компанией РСК (Рис. 1-2).

Рисунок 1. Система управления и мониторинга системы охлаждения суперкомпьютера «Говорун», специализированное ПО, разработка компании РСК.

Рисунок 2. Система управления и мониторинга узла регулирования №1 подачи охлаждающей жидкости, специализированное ПО, разработка компании РСК.
- Мониторинг МИВК суперкомпьютера «Говорун» (ЛИТ, [2]). Для контроля за текущим состоянием счётных очередей суперкомпьютера «Говорун» и количеством выполняемых задач применяется мониторинг ресурсов МИВК, построенный на основе системы GRAFANA и использующий актуальные данные от менеджера ресурсов SLURM (Рис. 3-4).
Рисунок 3. Система мониторинга ресурсов МИВК, система GRAFANA, ЛИТ.

Рисунок 4. Мониторинг счётных очередей суперкомпьютера «Говорун», система GRAFANA, ЛИТ.
- Мониторинг SALSA вычислительных ресурсов (HybriLIT, [3]). Для контроля работы аппаратной составляющей программно-информационной среды платформы применяется специализированная система мониторинга SALSA, позволяющая в режиме реального времени отслеживать различные данные о суммарной нагрузке на компоненты (CPU/GPU, RAM, disk, network) физических серверов и виртуальных машин (Рис. 5-6).
Рисунок 5. Система мониторинга суммарной нагрузки на ресурсы платформы HybriLIT, система SALSA, вид: таблица, разработка рабочей группы HybriLIT.

Рисунок 6. Система мониторинга нагрузки на группу узлов платформы HybriLIT, система SALSA, вид: диаграммы, разработка рабочей группы HybriLIT.
Разработанный ранее (2016-2017 гг.) мониторинг SALSA в первую очередь был ориентирован на отслеживание суммарной нагрузки на компоненты физических серверов и виртуальных машин, представляющих собой площадку для размещения сервисов Гетерогенной платформы HybriLIT. По мере увеличения вычислительных мощностей суперкомпьютера «Говорун» (модернизации 2024-2025 гг.) пользователи платформы получили возможность запускать на счёт всё более массивно-параллельные задачи (пакеты задач), создавая конкурирующую нагрузку не только на вычислительные ресурсы, но и на локальную сеть и системы хранения данных. В связи с этим мониторинг нагрузки, создаваемой отдельной ресурсоёмкой задачей пользователя, является одной из важных задач системного администрирования платформы.
В рамках научной темы «Разработка и внедрение новых систем сбора и анализа статистики использования вычислительных ресурсов и прикладного программного обеспечения Гетерогенной платформы HybriLIT» [4] была разработана новая система мониторинга StarLIT, являющаяся логическим развитием мониторинга SALSA. Мониторинг StarLIT поддерживает 5 режимов работы — режим «Standard» (суммарно по ресурсам, аналог мониторинга SALSA), режим «Extended» (детально по отдельным элементам компонентов), режим «Intraday» (аналог режима «Extended», с историей до 24 ч), режим «Analytic» (аналог режима «Extended», для накопления данных для внешней системы обработки, анализа и визуализации статистики), режим «SLURM» (для мониторинга нагрузки от счётных задач SLURM). Варианты интерфейса представлены на рисунках 7-12.

Рисунок 7. Мониторинг группы счётных узлов, режим «Standard», система StarLIT, вид: таблица, разработка рабочей группы HybriLIT.

Рисунок 8. Мониторинг группы счётных узлов, режим «Standard», система StarLIT, вид: диаграммы, разработка рабочей группы HybriLIT.

Рисунок 9. Мониторинг нагрузки CPU (sys) счётного узла, режим «Intraday», система StarLIT, вид: график, диапазон 5 мин, разработка рабочей группы HybriLIT.

Рисунок 10. Мониторинг нагрузки CPU (usr) счётного узла, режим «Intraday», система StarLIT, вид: график, диапазон 1 ч, разработка рабочей группы HybriLIT.

Рисунок 11. Мониторинг нагрузки NET (eth0) счётного узла, режим «Intraday», система StarLIT, вид: график, диапазон 24 ч, разработка рабочей группы HybriLIT.

Рисунок 12. Мониторинг нагрузки счётного узла SLURM задачами, система StarLIT, вид: таблица, разработка рабочей группы HybriLIT.
В настоящее время мониторинг StarLIT развёрнут на ресурсах Гетерогенной платформы HybriLIT и находится на этапе ввода в эксплуатацию.
Результаты работы [5] доложены на 11-ой международной конференции «Распределённые вычисления и грид-технологии в науке и образовании» (GRID-2025), 7-11 июля 2025 г., ОИЯИ, Дубна, Россия.
Литература
[1] Жидкостное охлаждение РСК. Ссылка: https://rscgroup.ru/technology/liquidcooling/
[2] Multi-level Monitoring System for Multifunctional and Computing Complex at JINR / Baginyan A.S., Balashov N.A., Baranov A.V., Belov S.D., Belyakov D.V., Butenko Yu.A., Dolbilov A.G., Golunov A.O., Kadochnikov I.S., Kashunin I.A., Korenkov V.V., Kutovskiy N.A., Mayorov A.V., Mitsyn V.V., Pelevanyuk I.S., Semenov R.N., Strizh T.A., Trofimov V.V., Vala M. // Proceedings, The 26th International Symposium on Nuclear Electronics & Computing (NEC-2017) — 2017 — p. 226-233.
[3] Развитие сервиса Stat-HybriLIT для мониторинга Гетерогенного кластера HybriLIT / Валя М., Майоров А.В., Бутенко Ю.А. // Материалы конференции, Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем (ITTMM-2017) — 2017 — с.209-211.
[4] Поддержка и развитие МИВК ОИЯИ. Ссылка: http://indico.jinr.ru/event/5170/contributions/31733/
[5] Развитие системы мониторинга вычислительных ресурсов Гетерогенной платформы HybriLIT / Беляков Д.В., Дереза Д.Г., Зуев М.И., Карпов Г.А., Лебедев М.П., Сказкин М.А. // Секционный доклад, 11-ая международная конференция «Распределённые вычисления и грид-технологии в науке и образовании» (GRID-2025), 8 июля 2025 г., ОИЯИ, Дубна, Россия.
Ссылка: http://indico.jinr.ru/event/5170/contributions/31733/
