Адаптация алгоритмов и фреймворков на высокопроизводительные вычислительные архитектуры и разработка новых алгоритмов на основе методов машинного обучения для существенного повышения производительности и эффективности обработки и реконструкции данных в экспериментах на ускорительном комплексе NICA*
Беляков Д.В., Воронцов А.С., Зуев М.И., Нечаевский А.В., Ососков Г.А., Подгайный Д.В., Стрельцова О.И., Торосян Ш.Г.
Группа по гетерогенным вычислениям HybriLIT
Лаборатория информационных технологий ОИЯИ
*Исследование выполняется при финансовой поддержке РФФИ в рамках научного проекта № 18-02-40101 мега
Для кардинального повышения производительности и эффективности обработки и реконструкции данных в экспериментах на ускорительном комплексе NICA проводятся работы, направленные на комплексную адаптацию алгоритмов и фреймворков, широко применяемых в физике высоких энергий, на гибридные вычислительные архитектуры и разработку новых алгоритмов на основе методов машинного обучения. Также гетерогенная платформа HybriLIT используется как полигон для тестирования как новых вычислительных архитектур, так и появляющихся IT-технологий с точки зрения возможности их применимости к решаемых задачам мега-проекта, а также сравнения эффективности разработанных параллельных реализаций с целью выявления более оптимальной как вычислительной архитектуры, так и выбора алгоритмов.
Одним из основных направлением работ является создание единой информационно – вычислительной среды для параллельной обработки данных мегапроекта NICA, объединяющей множество различных, концепций и методик, базирующейся на гетерогенной парадигме вычислений. Для обеспечения эффективной программной и алгоритмической поддержки экспериментов в области физики высоких энергий создаваемая среда проектируется с учетом требований: высокая производительность, высокая надежность и доступность, информационная безопасность, масштабируемость, развитая программная среда для различных групп пользователей.
В настоящее время суперкомпьютер «Говорун» используется как для теоретических исследований, так и для моделирования событий в эксперименте MPD мегапроекта NICA. Для генерации смоделированных данных эксперимента MPD используется CPU-вычислительная компонента суперкомпьютера «Говорун», то есть Skylake (2880 ядер) и KNL (6048 ядер). Следует отметить, что для повышения производительности генерации событий эксперимента MPD используется сверхбыстрая система хранения данных (UDSS) под управлением файловой системы Lustre с последующей передачей в холодильные хранилища, управляемые файловыми системами EOS и ZFS. В настоящее время UDSS имеет пять серверов хранения с 12 SSD-дисками, использующими технологию подключения NVMe, и общей емкостью 120 ТБ, что обеспечивает низкое время доступа к данным и скорость сбора / вывода данных 30 ТБ в секунду.
Программное обеспечение DIRAC используется для управления заданиями и процессом считывания/записи/обработки данных из различных типов хранилищ и файловых систем.
- Dmitry V. Podgainy (JINR). HybriLIT heterogeneous computing platform: ecosystem for carrying out parallel computations, application development, ML/DL tasks and data analysis. MMCP’2019 (https://indico-hlit.jinr.ru/event/129/timetable/#20190704.detailed)
- Maxim I. Zuev. Using the «Govorun» Supercomputer for the NICA Megaproject. MMCP’2019
(https://indico-hlit.jinr.ru/event/129/contributions/1211/)