GPU компонента

Описание
NVIDIA DGX-1 – это первая система, разработанная специально для задач глубокого обучения. В основе системы лежит новое поколение графических процессоров, которые обеспечивают скорость обработки данных, сравнимую с 250 серверами x86 архитектуры.

Характеристики
В состав HybriLIT входит 5 серверов DGX-1 с вычислительными процессорами двух типов:

  • два процессора Intel Xeon E5-2698 v4 20 cores;
  • восемь графических ускорителей NVIDIA Tesla V

со следующими аппаратными характеристиками:

CPU 80 cores
GPU 8 cards
RAM 512 GB
Storage 7.6 TB
NVLink bandwidth 300 GB/s
Ethernet 10 Gbit/s
InfiniBand 40 Gbit/s

Заявленная производительность NVIDIA Tesla V100

Double precision 7.8 Tflops
Single precision 15.7 Tflops
Deep learning 125 Tflops

Управление через планировщик SLURM
Пять серверов DGX-1 объединены в одну SLURM очередь – dgx. Время расчетов для задачи в очереди dgx – не более 14 дней.

Следующие параметры batch скрипта позволят управлять ресурсами очереди dgx: