Услуга

GPU-кластеры и HPC-инфраструктура

Проектируем и разворачиваем multi-GPU кластеры для инференса и обучения LLM. От 4 GPU до сотен узлов с InfiniBand, NVLink и полным стеком управления.

  • Подбор топологии: NVLink/NVSwitch, InfiniBand NDR 400Gb/s
  • GPU H100 (80 ГБ HBM3), H200 (141 ГБ HBM3e), B200 (192 ГБ HBM3e)
  • Kubernetes + NVIDIA GPU Operator / Slurm
  • DCGM, Prometheus, Grafana, алерты
  • Полностью on-premise, ваш ЦОД или выделенный ДЦ
  • Гарантия, удалённое обслуживание, апгрейд
Состав работ

Что входит

Полный цикл: от проектирования до эксплуатации

Проектирование топологии

NVSwitch внутри узла (900 ГБ/с на H100), InfiniBand NDR (400 Gb/s) между узлами, топология fat-tree. Расчёт intra/inter-node-пропускной способности и выбор стратегии параллелизма.

Подбор и поставка GPU

H100 SXM5, H200, B200 - под вашу модель и нагрузку. Расчёт VRAM, TFLOPS, TCO, анализ сценария: инференс, fine-tuning, pre-training.

Сеть и коммутация

InfiniBand NDR для основного трафика NCCL, RoCE v2 или Ethernet для управления. NCCL-оптимизация, предотвращение бутылочных горлышек при all-reduce.

Система хранения

NVMe-oF для чекпойнтов (50+ GB/s), параллельная ФС (WekaFS / Lustre) для датасетов, S3-объектное хранилище для архивов.

Планировщик и оркестрация

Slurm с gres.conf и topology-aware scheduling или Kubernetes + NVIDIA GPU Operator. MIG для инференса, time-slicing, fair-share между командами.

Мониторинг и алерты

DCGM Exporter > Prometheus > Grafana. Утилизация GPU, NVLink-трафик, термальный троттлинг, SM occupancy. Алерты при падении утилизации.

Конфигурации

Типовые конфигурации кластеров

Конфигурация подбирается под модель, нагрузку и бюджет

ПараметрСтартБизнесEnterprise
GPU 4-8 x H100 SXM5 16-32 x H100 SXM5 64-256 x H200 / B200
Interconnect NVSwitch + InfiniBand NDR 400Gb NVSwitch + InfiniBand NDR 400Gb NVLink 5 (1.8 TB/s) + InfiniBand NDR 400Gb / XDR 800Gb
Хранение NVMe RAID + NFS для датасетов NVMe-oF + WekaFS NVMe-oF + WekaFS / Lustre
Планировщик Slurm / K8s + GPU Operator Kubernetes + GPU Operator Slurm + K8s (гибрид)
Нагрузка Инференс + fine-tuning до 70B Инференс, RAG, multi-LoRA serving Pre-training, distributed inference
Мониторинг DCGM + Prometheus + Grafana + алерты + SLO-дашборды + audit log + cost attribution
Процесс

Как мы внедряем

От аудита ЦОД до промышленной эксплуатации кластера

  1. 01

    Аудит инфраструктуры

    Обследуем ЦОД: свободные стойко-места, мощность электропитания (H100 - 700 Вт на карту, B200 - до 1 200 Вт), охлаждение, существующая сеть. Определяем возможность air-gap.

  2. 02

    Архитектура и ТЗ

    Готовим схему топологии, спецификацию GPU/сети/СХД, смету и TCO на 3 года. Выбираем стратегию параллелизма под вашу задачу.

  3. 03

    Поставка и монтаж

    Поставляем оборудование, монтируем в стойки, коммутируем InfiniBand и Ethernet. Подключаем резервированное питание и охлаждение.

  4. 04

    Настройка стека

    CUDA 13.2, NVIDIA Container Toolkit, vLLM v0.22 / SGLang v0.5, Docker / K8s / Slurm. Развёртываем мониторинг и алертинг.

  5. 05

    Приёмка и документация

    Тестируем under-load: latency, throughput, пропускная способность сети, скорость I/O. Передаём паспорт кластера, регламенты и runbook.

Технический разбор

Архитектура: как мы выбираем стратегию параллелизма

Стратегия параллелизма: tensor, pipeline, data

Для моделей >70B параметров выбор стратегии параллелизма определяет эффективность всего кластера. Внутри узла NVSwitch даёт до 900 ГБ/с (H100) - здесь размещаем tensor parallelism (TP). Между узлами InfiniBand NDR даёт до 50 ГБ/с на порт - здесь pipeline (PP) или data parallelism (DP).

Инференс: tensor parallelism внутри одного узла или двух, соединённых NVLink. Для очень больших MoE-моделей (Kimi K2.6, DeepSeek V4 Pro) - комбинация TP + expert parallelism.

Fine-tuning: комбинация TP + PP с DeepSpeed ZeRO-3 или FSDP. Для multi-node - NCCL-оптимизация через InfiniBand.

Pre-training: трёхмерный параллелизм (TP + PP + DP) с ZeRO-оптимизацией. Критично: 18:1 ratio intra/inter-node bandwidth на DGX H100 - если не учесть, масштабирование ломается.

Inference-стек 2026

  • vLLM v0.22: PagedAttention, непрерывное бэтчирование, поддержка DeepSeek V4, FP8/FP4 на Blackwell. Основной движок для chat и batch-инференса.
  • SGLang v0.5: RadixAttention, до 29% выше throughput на H100 vs vLLM, до 6,4x на prefix-heavy RAG. DeepSeek официально рекомендует SGLang для production.
  • Ollama: только для прототипов и single-GPU, не для кластеров.
  • TensorRT-LLM: максимальная производительность через компиляцию модели, для фиксированных production-пайплайнов.

Инструменты fine-tuning и обучения

  • Unsloth (2026) - опенсорс, 2-5x быстрее стандартного Hugging Face, LoRA/QLoRA с минимальным VRAM.
  • Axolotl - гибкий fine-tuning с поддержкой FSDP и DeepSpeed.
  • NVIDIA NeMo - для крупных multi-node обучений, интеграция с DGX.
  • DeepSpeed ZeRO-3 - распределённая оптимизация, офлоад на CPU/NVMe.
  • Регулярный eval на чекпойнтах через RAGAS, lm-eval-harness или OpenCompass.

Профилирование перед спецификацией

Каждый проект начинаем с бенчмарка вашей модели на тестовой конфигурации: замеряем throughput, latency, GPU utilisation, NVLink/IB-трафик. Только после этого фиксируем спецификацию. Без профилирования кластер рискует быть либо недогружен (переплата), либо перегружен (невозможно работать).

GPU без архитектуры - деньги на ветер

Покупка GPU без проекта топологии, сети и СХД приводит к утилизации 20-40% и перерасходу бюджета. Кластер - это не сумма видеокарт, а единая система. Мы начинаем с аудита и расчёта, а не с заказа железа.

Риски

Ошибки, которых мы не допускаем

Типовые проблемы, которые мы исключаем на этапе архитектуры

PCIe вместо NVSwitch

All-reduce через PCIe - узкое место для multi-GPU. Тренировка модели 70B на PCIe-связке даёт 3-5x меньший throughput. NVSwitch/NVLink обязателен.

NFS для чекпойнтов

Сохранение чекпойнта 64 GPU на NFS длится минуты, I/O stall теряет дорогие GPU-циклы. NVMe-oF или параллельная ФС - не опция, а требование.

Отсутствие планировщика

Без Slurm/K8s команды вручную занимают GPU, конфликтуют за ресурсы. Планировщик - не роскошь, а базовая функция кластера.

Неверный parallel strategy

Неучёт 18:1 ratio intra/inter-node bandwidth ломает масштабирование. TP - внутри узла, PP/DP - между узлами. Ошибка в стратегии = 40-60% потеря throughput.

Тепловой троттлинг

700 Вт на H100 SXM5, до 1 200 Вт на B200. Без инженерного расчёта охлаждения - гарантированный троттлинг через 10-15 минут.

Нет мониторинга утилизации

Кластер при 40% утилизации теряет больше половины вложений в год. DCGM + Prometheus + Grafana с алертами - обязательный минимум с первого дня.

Спроектировать GPU-кластер?

Опишите задачу: модель, ожидаемая нагрузка (RPS / пользователей), требования к приватности (on-premise / air-gap / выделенный ДЦ). Вернёмся с архитектурой, спецификацией и TCO на 3 года.