GPU-кластеры и HPC-инфраструктура
Проектируем и разворачиваем multi-GPU кластеры для инференса и обучения LLM. От 4 GPU до сотен узлов с InfiniBand, NVLink и полным стеком управления.
- Подбор топологии: NVLink/NVSwitch, InfiniBand NDR 400Gb/s
- GPU H100 (80 ГБ HBM3), H200 (141 ГБ HBM3e), B200 (192 ГБ HBM3e)
- Kubernetes + NVIDIA GPU Operator / Slurm
- DCGM, Prometheus, Grafana, алерты
- Полностью on-premise, ваш ЦОД или выделенный ДЦ
- Гарантия, удалённое обслуживание, апгрейд
Что входит
Полный цикл: от проектирования до эксплуатации
Проектирование топологии
NVSwitch внутри узла (900 ГБ/с на H100), InfiniBand NDR (400 Gb/s) между узлами, топология fat-tree. Расчёт intra/inter-node-пропускной способности и выбор стратегии параллелизма.
Подбор и поставка GPU
H100 SXM5, H200, B200 - под вашу модель и нагрузку. Расчёт VRAM, TFLOPS, TCO, анализ сценария: инференс, fine-tuning, pre-training.
Сеть и коммутация
InfiniBand NDR для основного трафика NCCL, RoCE v2 или Ethernet для управления. NCCL-оптимизация, предотвращение бутылочных горлышек при all-reduce.
Система хранения
NVMe-oF для чекпойнтов (50+ GB/s), параллельная ФС (WekaFS / Lustre) для датасетов, S3-объектное хранилище для архивов.
Планировщик и оркестрация
Slurm с gres.conf и topology-aware scheduling или Kubernetes + NVIDIA GPU Operator. MIG для инференса, time-slicing, fair-share между командами.
Мониторинг и алерты
DCGM Exporter > Prometheus > Grafana. Утилизация GPU, NVLink-трафик, термальный троттлинг, SM occupancy. Алерты при падении утилизации.
Типовые конфигурации кластеров
Конфигурация подбирается под модель, нагрузку и бюджет
| Параметр | Старт | Бизнес | Enterprise |
|---|---|---|---|
| GPU | 4-8 x H100 SXM5 | 16-32 x H100 SXM5 | 64-256 x H200 / B200 |
| Interconnect | NVSwitch + InfiniBand NDR 400Gb | NVSwitch + InfiniBand NDR 400Gb | NVLink 5 (1.8 TB/s) + InfiniBand NDR 400Gb / XDR 800Gb |
| Хранение | NVMe RAID + NFS для датасетов | NVMe-oF + WekaFS | NVMe-oF + WekaFS / Lustre |
| Планировщик | Slurm / K8s + GPU Operator | Kubernetes + GPU Operator | Slurm + K8s (гибрид) |
| Нагрузка | Инференс + fine-tuning до 70B | Инференс, RAG, multi-LoRA serving | Pre-training, distributed inference |
| Мониторинг | DCGM + Prometheus + Grafana | + алерты + SLO-дашборды | + audit log + cost attribution |
Как мы внедряем
От аудита ЦОД до промышленной эксплуатации кластера
-
01
Аудит инфраструктуры
Обследуем ЦОД: свободные стойко-места, мощность электропитания (H100 - 700 Вт на карту, B200 - до 1 200 Вт), охлаждение, существующая сеть. Определяем возможность air-gap.
-
02
Архитектура и ТЗ
Готовим схему топологии, спецификацию GPU/сети/СХД, смету и TCO на 3 года. Выбираем стратегию параллелизма под вашу задачу.
-
03
Поставка и монтаж
Поставляем оборудование, монтируем в стойки, коммутируем InfiniBand и Ethernet. Подключаем резервированное питание и охлаждение.
-
04
Настройка стека
CUDA 13.2, NVIDIA Container Toolkit, vLLM v0.22 / SGLang v0.5, Docker / K8s / Slurm. Развёртываем мониторинг и алертинг.
-
05
Приёмка и документация
Тестируем under-load: latency, throughput, пропускная способность сети, скорость I/O. Передаём паспорт кластера, регламенты и runbook.
Архитектура: как мы выбираем стратегию параллелизма
Стратегия параллелизма: tensor, pipeline, data
Для моделей >70B параметров выбор стратегии параллелизма определяет эффективность всего кластера. Внутри узла NVSwitch даёт до 900 ГБ/с (H100) - здесь размещаем tensor parallelism (TP). Между узлами InfiniBand NDR даёт до 50 ГБ/с на порт - здесь pipeline (PP) или data parallelism (DP).
Инференс: tensor parallelism внутри одного узла или двух, соединённых NVLink. Для очень больших MoE-моделей (Kimi K2.6, DeepSeek V4 Pro) - комбинация TP + expert parallelism.
Fine-tuning: комбинация TP + PP с DeepSpeed ZeRO-3 или FSDP. Для multi-node - NCCL-оптимизация через InfiniBand.
Pre-training: трёхмерный параллелизм (TP + PP + DP) с ZeRO-оптимизацией. Критично: 18:1 ratio intra/inter-node bandwidth на DGX H100 - если не учесть, масштабирование ломается.
Inference-стек 2026
- vLLM v0.22: PagedAttention, непрерывное бэтчирование, поддержка DeepSeek V4, FP8/FP4 на Blackwell. Основной движок для chat и batch-инференса.
- SGLang v0.5: RadixAttention, до 29% выше throughput на H100 vs vLLM, до 6,4x на prefix-heavy RAG. DeepSeek официально рекомендует SGLang для production.
- Ollama: только для прототипов и single-GPU, не для кластеров.
- TensorRT-LLM: максимальная производительность через компиляцию модели, для фиксированных production-пайплайнов.
Инструменты fine-tuning и обучения
- Unsloth (2026) - опенсорс, 2-5x быстрее стандартного Hugging Face, LoRA/QLoRA с минимальным VRAM.
- Axolotl - гибкий fine-tuning с поддержкой FSDP и DeepSpeed.
- NVIDIA NeMo - для крупных multi-node обучений, интеграция с DGX.
- DeepSpeed ZeRO-3 - распределённая оптимизация, офлоад на CPU/NVMe.
- Регулярный eval на чекпойнтах через RAGAS, lm-eval-harness или OpenCompass.
Профилирование перед спецификацией
Каждый проект начинаем с бенчмарка вашей модели на тестовой конфигурации: замеряем throughput, latency, GPU utilisation, NVLink/IB-трафик. Только после этого фиксируем спецификацию. Без профилирования кластер рискует быть либо недогружен (переплата), либо перегружен (невозможно работать).
GPU без архитектуры - деньги на ветер
Покупка GPU без проекта топологии, сети и СХД приводит к утилизации 20-40% и перерасходу бюджета. Кластер - это не сумма видеокарт, а единая система. Мы начинаем с аудита и расчёта, а не с заказа железа.
Ошибки, которых мы не допускаем
Типовые проблемы, которые мы исключаем на этапе архитектуры
PCIe вместо NVSwitch
All-reduce через PCIe - узкое место для multi-GPU. Тренировка модели 70B на PCIe-связке даёт 3-5x меньший throughput. NVSwitch/NVLink обязателен.
NFS для чекпойнтов
Сохранение чекпойнта 64 GPU на NFS длится минуты, I/O stall теряет дорогие GPU-циклы. NVMe-oF или параллельная ФС - не опция, а требование.
Отсутствие планировщика
Без Slurm/K8s команды вручную занимают GPU, конфликтуют за ресурсы. Планировщик - не роскошь, а базовая функция кластера.
Неверный parallel strategy
Неучёт 18:1 ratio intra/inter-node bandwidth ломает масштабирование. TP - внутри узла, PP/DP - между узлами. Ошибка в стратегии = 40-60% потеря throughput.
Тепловой троттлинг
700 Вт на H100 SXM5, до 1 200 Вт на B200. Без инженерного расчёта охлаждения - гарантированный троттлинг через 10-15 минут.
Нет мониторинга утилизации
Кластер при 40% утилизации теряет больше половины вложений в год. DCGM + Prometheus + Grafana с алертами - обязательный минимум с первого дня.
Спроектировать GPU-кластер?
Опишите задачу: модель, ожидаемая нагрузка (RPS / пользователей), требования к приватности (on-premise / air-gap / выделенный ДЦ). Вернёмся с архитектурой, спецификацией и TCO на 3 года.