GPU-кластеры и HPC-инфраструктура
Проектируем и разворачиваем multi-GPU кластеры для инференса и обучения LLM. От 4 GPU до сотен узлов с InfiniBand, NVLink и полным стеком управления.
- Подбор топологии: NVLink/NVSwitch, InfiniBand NDR
- GPU H100, H200, B200, L40S под нагрузку
- Kubernetes + NVIDIA GPU Operator / Slurm
- DCGM, Prometheus, Grafana, алерты
- Полностью on-premise, ваш ЦОД или выделенный ДЦ
- Гарантия, удалённое обслуживание, апгрейд
Что входит
Проектирование топологии
NVLink/NVSwitch внутри узла, InfiniBand NDR (400 Gb/s) между узлами, fat-tree. Расчёт intra/inter-node-пропускной способности и выбор стратегии параллелизма.
Подбор и поставка GPU
H100 SXM5, H200, B200, L40S — под вашу модель и нагрузку. Расчёт VRAM, TFLOPS, TCO, анализ сценария: инференс, fine-tuning, pre-training.
Сеть и коммутация
InfiniBand NDR / RoCE v2, NCCL-оптимизация, топология fat-tree. Предотвращение бутылочных горлышек при all-reduce.
Система хранения
NVMe-oF для чекпойнтов (50+ GB/s), параллельная ФС (WekaFS / Lustre) для датасетов, S3-объектное хранилище для архивов.
Планировщик и оркестрация
Slurm с gres.conf и topology-aware scheduling или Kubernetes + NVIDIA GPU Operator. MIG для инференса, time-slicing, fair-share.
Мониторинг и алерты
DCGM Exporter → Prometheus → Grafana. Утилизация GPU, NVLink-трафик, термальный троттлинг, SM occupancy. Алерты при падении ниже 70% утилизации.
Как мы внедряем
От аудита ЦОД до промышленной эксплуатации кластера
-
01
Аудит инфраструктуры
Обследуем ЦОД: свободные стойко-места, мощность электропитания (на 1 GPU до 700 Вт), охлаждение, существующая сеть. Определяем возможность air-gap.
-
02
Архитектура и ТЗ
Готовим схему топологии, спецификацию GPU/сети/СХД, смету и TCO на 3 года. Выбираем стратегию параллелизма под вашу задачу.
-
03
Поставка и монтаж
Поставляем оборудование, монтируем в стойки, коммутируем InfiniBand и Ethernet. Подключаем резервированное питание и охлаждение.
-
04
Настройка стека
Устанавливаем CUDA, NVIDIA Container Toolkit, vLLM / SGLang / Triton, Docker / K8s / Slurm. Развёртываем мониторинг и алертинг.
-
05
Приёмка и документация
Тестируем under-load: латенси, throughput, пропускная способность сети, скорость I/O. Передаём паспорт кластера, регламенты и runbook.
Типовые конфигурации кластеров
| Параметр | Старт | Бизнес | Enterprise |
|---|---|---|---|
| GPU | 4–8 × L40S / A100 | 16–32 × H100 SXM5 | 64–256 × H200 / B200 |
| Interconnect | NVLink 4 + RoCE v2 100GbE | NVSwitch + InfiniBand NDR 400Gb | NVSwitch + InfiniBand NDR 400Gb |
| Хранение | NVMe RAID + NFS | NVMe-oF + WekaFS | NVMe-oF + WekaFS / Lustre |
| Планировщик | Docker Compose + Ollama | Kubernetes + GPU Operator | Slurm + K8s (гибрид) |
| Нагрузка | Fine-tuning/инференс <70B | Инференс, RAG, multi-LoRA | Pre-training, distributed inference |
| Мониторинг | DCGM + Prometheus | + Grafana + алерты | + Дашборды + SLO + audit |
GPU без архитектуры — деньги на ветер
Покупка GPU без проекта топологии, сети и СХД приводит к утилизации 20–40% и перерасходу бюджета. Мы начинаем с аудита и расчёта, а не с заказа железа.
Ошибки, которые мы не допускаем
PCIe вместо NVLink
All-reduce через PCIe — узкое место. Тренировка модели 70B на PCIe-связке даёт 3–5× меньший throughput.
NFS для чекпойнтов
Сохранение чекпойнта на NFS при 64 GPU длится минуты, I/O stall теряет циклы. Нужен NVMe-oF или параллельная ФС.
Отсутствие планировщика
Без Slurm/K8s команды «бросают» задачи руками, конфликтуют за GPU, нет oчередей и fair-share.
Неверный parallel strategy
Неучёт intra/inter-node-пропускной способности (18:1 у DGX) ломает масштабирование. Tensor parallelism внутри узла, pipeline/data parallel между.
Тепловой троттлинг
700 Вт на H100 SXM5 без инженерного охлаждения — гарантированный троттлинг через 15 минут под нагрузкой.
Нет мониторинга утилизации
Кластер за $2 млн при 40% утилизации эквивалентен $800К прямых потерь в год. Мониторинг обязателен с первого дня.
Архитектура: как мы выбираем стратегию параллелизма
Tensor, pipeline, data parallelism
Для моделей >70B параметров выбор стратегии параллелизма определяет эффективность всего кластера. Внутри узла NVSwitch даёт до 900 GB/s — здесь размещаем tensor parallelism. Между узлами InfiniBand NDR даёт до 50 GB/s — здесь pipeline или data parallelism.
Для инференса больших моделей используем tensor parallelism (TP) внутри одного узла или двух, соединённых NVLink. Для fine-tuning — комбинацию TP + pipeline parallelism. Для pre-training — трёхмерный параллелизм (TP + PP + DP) с ZeRO-оптимизацией.
Inference-стек
- vLLM: PagedAttention, непрерывное бэтчирование, оптимален для чат-нагрузок с variable-length последовательностями.
- SGLang: RadixAttention, на 29% быстрее vLLM на H100, до 6× ускорение в RAG-сценариях за счёт разделяемого prefix-кэша.
- Triton Inference Server: мульти-модельный сервинг, динамический бэтчинг, поддержка ensemble — для продакшен-сред с десятками моделей.
Для fine-tuning и обучения
- Используем NVIDIA NeMo / Axolotl с FSDP или DeepSpeed ZeRO-3.
- При multi-node fine-tuning — сочетание TP + PP с NCCL-оптимизацией через InfiniBand.
- Регулярный eval на чекпойнтах через RAGAS или lm-eval-harness для отслеживания качества.
Каждый проект мы начинаем с профилирования: запускаем бенчмарк вашей модели на тестовой конфигурации, замеряем throughput и utilisation, только потом фиксируем спецификацию.
Спроектировать GPU-кластер?
Опишите задачу: модель, ожидаемая нагрузка (RPS/DAU), требования к приватности (on-premise / air-gap / выделенный ДЦ), бюджет. Вернёмся с архитектурой, спецификацией и TCO.