GPU-кластеры для ИИ - проектирование и внедрение под ключ

Состав работ

Что входит

Полный цикл: от проектирования до эксплуатации

Проектирование топологии

NVSwitch внутри узла (900 ГБ/с на H100), InfiniBand NDR (400 Gb/s) между узлами, топология fat-tree. Расчёт intra/inter-node-пропускной способности и выбор стратегии параллелизма.

Подбор и поставка GPU

H100 SXM5, H200, B200 - под вашу модель и нагрузку. Расчёт VRAM, TFLOPS, TCO, анализ сценария: инференс, fine-tuning, pre-training.

Сеть и коммутация

InfiniBand NDR для основного трафика NCCL, RoCE v2 или Ethernet для управления. NCCL-оптимизация, предотвращение бутылочных горлышек при all-reduce.

Система хранения

NVMe-oF для чекпойнтов (50+ GB/s), параллельная ФС (WekaFS / Lustre) для датасетов, S3-объектное хранилище для архивов.

Планировщик и оркестрация

Slurm с gres.conf и topology-aware scheduling или Kubernetes + NVIDIA GPU Operator. MIG для инференса, time-slicing, fair-share между командами.

Мониторинг и алерты

DCGM Exporter > Prometheus > Grafana. Утилизация GPU, NVLink-трафик, термальный троттлинг, SM occupancy. Алерты при падении утилизации.

Конфигурации

Типовые конфигурации кластеров

Конфигурация подбирается под модель, нагрузку и бюджет

Параметр	Старт	Бизнес	Enterprise
GPU	4-8 x H100 SXM5	16-32 x H100 SXM5	64-256 x H200 / B200
Interconnect	NVSwitch + InfiniBand NDR 400Gb	NVSwitch + InfiniBand NDR 400Gb	NVLink 5 (1.8 TB/s) + InfiniBand NDR 400Gb / XDR 800Gb
Хранение	NVMe RAID + NFS для датасетов	NVMe-oF + WekaFS	NVMe-oF + WekaFS / Lustre
Планировщик	Slurm / K8s + GPU Operator	Kubernetes + GPU Operator	Slurm + K8s (гибрид)
Нагрузка	Инференс + fine-tuning до 70B	Инференс, RAG, multi-LoRA serving	Pre-training, distributed inference
Мониторинг	DCGM + Prometheus + Grafana	+ алерты + SLO-дашборды	+ audit log + cost attribution

Процесс

Как мы внедряем

От аудита ЦОД до промышленной эксплуатации кластера

01

Аудит инфраструктуры

Обследуем ЦОД: свободные стойко-места, мощность электропитания (H100 - 700 Вт на карту, B200 - до 1 200 Вт), охлаждение, существующая сеть. Определяем возможность air-gap.
02

Архитектура и ТЗ

Готовим схему топологии, спецификацию GPU/сети/СХД, смету и TCO на 3 года. Выбираем стратегию параллелизма под вашу задачу.
03

Поставка и монтаж

Поставляем оборудование, монтируем в стойки, коммутируем InfiniBand и Ethernet. Подключаем резервированное питание и охлаждение.
04

Настройка стека

CUDA 13.2, NVIDIA Container Toolkit, vLLM v0.22 / SGLang v0.5, Docker / K8s / Slurm. Развёртываем мониторинг и алертинг.
05

Приёмка и документация

Тестируем under-load: latency, throughput, пропускная способность сети, скорость I/O. Передаём паспорт кластера, регламенты и runbook.

Технический разбор

Архитектура: как мы выбираем стратегию параллелизма

Стратегия параллелизма: tensor, pipeline, data

Для моделей >70B параметров выбор стратегии параллелизма определяет эффективность всего кластера. Внутри узла NVSwitch даёт до 900 ГБ/с (H100) - здесь размещаем tensor parallelism (TP). Между узлами InfiniBand NDR даёт до 50 ГБ/с на порт - здесь pipeline (PP) или data parallelism (DP).

Инференс: tensor parallelism внутри одного узла или двух, соединённых NVLink. Для очень больших MoE-моделей (Kimi K2.6, DeepSeek V4 Pro) - комбинация TP + expert parallelism.

Fine-tuning: комбинация TP + PP с DeepSpeed ZeRO-3 или FSDP. Для multi-node - NCCL-оптимизация через InfiniBand.

Pre-training: трёхмерный параллелизм (TP + PP + DP) с ZeRO-оптимизацией. Критично: 18:1 ratio intra/inter-node bandwidth на DGX H100 - если не учесть, масштабирование ломается.

Inference-стек 2026

vLLM v0.22: PagedAttention, непрерывное бэтчирование, поддержка DeepSeek V4, FP8/FP4 на Blackwell. Основной движок для chat и batch-инференса.
SGLang v0.5: RadixAttention, до 29% выше throughput на H100 vs vLLM, до 6,4x на prefix-heavy RAG. DeepSeek официально рекомендует SGLang для production.
Ollama: только для прототипов и single-GPU, не для кластеров.
TensorRT-LLM: максимальная производительность через компиляцию модели, для фиксированных production-пайплайнов.

Инструменты fine-tuning и обучения

Unsloth (2026) - опенсорс, 2-5x быстрее стандартного Hugging Face, LoRA/QLoRA с минимальным VRAM.
Axolotl - гибкий fine-tuning с поддержкой FSDP и DeepSpeed.
NVIDIA NeMo - для крупных multi-node обучений, интеграция с DGX.
DeepSpeed ZeRO-3 - распределённая оптимизация, офлоад на CPU/NVMe.
Регулярный eval на чекпойнтах через RAGAS, lm-eval-harness или OpenCompass.

Профилирование перед спецификацией

Каждый проект начинаем с бенчмарка вашей модели на тестовой конфигурации: замеряем throughput, latency, GPU utilisation, NVLink/IB-трафик. Только после этого фиксируем спецификацию. Без профилирования кластер рискует быть либо недогружен (переплата), либо перегружен (невозможно работать).

GPU без архитектуры - деньги на ветер

Покупка GPU без проекта топологии, сети и СХД приводит к утилизации 20-40% и перерасходу бюджета. Кластер - это не сумма видеокарт, а единая система. Мы начинаем с аудита и расчёта, а не с заказа железа.

Риски

Ошибки, которых мы не допускаем

Типовые проблемы, которые мы исключаем на этапе архитектуры

PCIe вместо NVSwitch

All-reduce через PCIe - узкое место для multi-GPU. Тренировка модели 70B на PCIe-связке даёт 3-5x меньший throughput. NVSwitch/NVLink обязателен.

NFS для чекпойнтов

Сохранение чекпойнта 64 GPU на NFS длится минуты, I/O stall теряет дорогие GPU-циклы. NVMe-oF или параллельная ФС - не опция, а требование.

Отсутствие планировщика

Без Slurm/K8s команды вручную занимают GPU, конфликтуют за ресурсы. Планировщик - не роскошь, а базовая функция кластера.

Неверный parallel strategy

Неучёт 18:1 ratio intra/inter-node bandwidth ломает масштабирование. TP - внутри узла, PP/DP - между узлами. Ошибка в стратегии = 40-60% потеря throughput.

Тепловой троттлинг

700 Вт на H100 SXM5, до 1 200 Вт на B200. Без инженерного расчёта охлаждения - гарантированный троттлинг через 10-15 минут.

Нет мониторинга утилизации

Кластер при 40% утилизации теряет больше половины вложений в год. DCGM + Prometheus + Grafana с алертами - обязательный минимум с первого дня.

Каталог услуг

Другие услуги

Машинное зрение Системы машинного зрения для промышленности: контроль качества, дефектоскопия, сортировка, изме… ИИ-боты и агенты Проектируем и внедряем интеллектуальных ботов в Telegram, WhatsApp, корпоративные порталы и веб… Видеоаналитика и безопасность на объекте Системы интеллектуальной видеоаналитики для промышленных объектов, складов и периметров: детекц… Сортировка и классификация продукции на конвейере Системы автоматической сортировки и классификации продукции на конвейере: распознавание по визу…

Спроектировать GPU-кластер?

Опишите задачу: модель, ожидаемая нагрузка (RPS / пользователей), требования к приватности (on-premise / air-gap / выделенный ДЦ). Вернёмся с архитектурой, спецификацией и TCO на 3 года.

Запросить архитектуру

GPU-кластеры и HPC-инфраструктура