Услуга

GPU-кластеры и HPC-инфраструктура

Проектируем и разворачиваем multi-GPU кластеры для инференса и обучения LLM. От 4 GPU до сотен узлов с InfiniBand, NVLink и полным стеком управления.

  • Подбор топологии: NVLink/NVSwitch, InfiniBand NDR
  • GPU H100, H200, B200, L40S под нагрузку
  • Kubernetes + NVIDIA GPU Operator / Slurm
  • DCGM, Prometheus, Grafana, алерты
  • Полностью on-premise, ваш ЦОД или выделенный ДЦ
  • Гарантия, удалённое обслуживание, апгрейд

Что входит

Проектирование топологии

NVLink/NVSwitch внутри узла, InfiniBand NDR (400 Gb/s) между узлами, fat-tree. Расчёт intra/inter-node-пропускной способности и выбор стратегии параллелизма.

Подбор и поставка GPU

H100 SXM5, H200, B200, L40S — под вашу модель и нагрузку. Расчёт VRAM, TFLOPS, TCO, анализ сценария: инференс, fine-tuning, pre-training.

Сеть и коммутация

InfiniBand NDR / RoCE v2, NCCL-оптимизация, топология fat-tree. Предотвращение бутылочных горлышек при all-reduce.

Система хранения

NVMe-oF для чекпойнтов (50+ GB/s), параллельная ФС (WekaFS / Lustre) для датасетов, S3-объектное хранилище для архивов.

Планировщик и оркестрация

Slurm с gres.conf и topology-aware scheduling или Kubernetes + NVIDIA GPU Operator. MIG для инференса, time-slicing, fair-share.

Мониторинг и алерты

DCGM Exporter → Prometheus → Grafana. Утилизация GPU, NVLink-трафик, термальный троттлинг, SM occupancy. Алерты при падении ниже 70% утилизации.

Как мы внедряем

От аудита ЦОД до промышленной эксплуатации кластера

  1. 01

    Аудит инфраструктуры

    Обследуем ЦОД: свободные стойко-места, мощность электропитания (на 1 GPU до 700 Вт), охлаждение, существующая сеть. Определяем возможность air-gap.

  2. 02

    Архитектура и ТЗ

    Готовим схему топологии, спецификацию GPU/сети/СХД, смету и TCO на 3 года. Выбираем стратегию параллелизма под вашу задачу.

  3. 03

    Поставка и монтаж

    Поставляем оборудование, монтируем в стойки, коммутируем InfiniBand и Ethernet. Подключаем резервированное питание и охлаждение.

  4. 04

    Настройка стека

    Устанавливаем CUDA, NVIDIA Container Toolkit, vLLM / SGLang / Triton, Docker / K8s / Slurm. Развёртываем мониторинг и алертинг.

  5. 05

    Приёмка и документация

    Тестируем under-load: латенси, throughput, пропускная способность сети, скорость I/O. Передаём паспорт кластера, регламенты и runbook.

Типовые конфигурации кластеров

ПараметрСтартБизнесEnterprise
GPU 4–8 × L40S / A100 16–32 × H100 SXM5 64–256 × H200 / B200
Interconnect NVLink 4 + RoCE v2 100GbE NVSwitch + InfiniBand NDR 400Gb NVSwitch + InfiniBand NDR 400Gb
Хранение NVMe RAID + NFS NVMe-oF + WekaFS NVMe-oF + WekaFS / Lustre
Планировщик Docker Compose + Ollama Kubernetes + GPU Operator Slurm + K8s (гибрид)
Нагрузка Fine-tuning/инференс <70B Инференс, RAG, multi-LoRA Pre-training, distributed inference
Мониторинг DCGM + Prometheus + Grafana + алерты + Дашборды + SLO + audit

GPU без архитектуры — деньги на ветер

Покупка GPU без проекта топологии, сети и СХД приводит к утилизации 20–40% и перерасходу бюджета. Мы начинаем с аудита и расчёта, а не с заказа железа.

Ошибки, которые мы не допускаем

PCIe вместо NVLink

All-reduce через PCIe — узкое место. Тренировка модели 70B на PCIe-связке даёт 3–5× меньший throughput.

NFS для чекпойнтов

Сохранение чекпойнта на NFS при 64 GPU длится минуты, I/O stall теряет циклы. Нужен NVMe-oF или параллельная ФС.

Отсутствие планировщика

Без Slurm/K8s команды «бросают» задачи руками, конфликтуют за GPU, нет oчередей и fair-share.

Неверный parallel strategy

Неучёт intra/inter-node-пропускной способности (18:1 у DGX) ломает масштабирование. Tensor parallelism внутри узла, pipeline/data parallel между.

Тепловой троттлинг

700 Вт на H100 SXM5 без инженерного охлаждения — гарантированный троттлинг через 15 минут под нагрузкой.

Нет мониторинга утилизации

Кластер за $2 млн при 40% утилизации эквивалентен $800К прямых потерь в год. Мониторинг обязателен с первого дня.

Архитектура: как мы выбираем стратегию параллелизма

Tensor, pipeline, data parallelism

Для моделей >70B параметров выбор стратегии параллелизма определяет эффективность всего кластера. Внутри узла NVSwitch даёт до 900 GB/s — здесь размещаем tensor parallelism. Между узлами InfiniBand NDR даёт до 50 GB/s — здесь pipeline или data parallelism.

Для инференса больших моделей используем tensor parallelism (TP) внутри одного узла или двух, соединённых NVLink. Для fine-tuning — комбинацию TP + pipeline parallelism. Для pre-training — трёхмерный параллелизм (TP + PP + DP) с ZeRO-оптимизацией.

Inference-стек

  • vLLM: PagedAttention, непрерывное бэтчирование, оптимален для чат-нагрузок с variable-length последовательностями.
  • SGLang: RadixAttention, на 29% быстрее vLLM на H100, до 6× ускорение в RAG-сценариях за счёт разделяемого prefix-кэша.
  • Triton Inference Server: мульти-модельный сервинг, динамический бэтчинг, поддержка ensemble — для продакшен-сред с десятками моделей.

Для fine-tuning и обучения

  • Используем NVIDIA NeMo / Axolotl с FSDP или DeepSpeed ZeRO-3.
  • При multi-node fine-tuning — сочетание TP + PP с NCCL-оптимизацией через InfiniBand.
  • Регулярный eval на чекпойнтах через RAGAS или lm-eval-harness для отслеживания качества.

Каждый проект мы начинаем с профилирования: запускаем бенчмарк вашей модели на тестовой конфигурации, замеряем throughput и utilisation, только потом фиксируем спецификацию.

Спроектировать GPU-кластер?

Опишите задачу: модель, ожидаемая нагрузка (RPS/DAU), требования к приватности (on-premise / air-gap / выделенный ДЦ), бюджет. Вернёмся с архитектурой, спецификацией и TCO.