Услуга

ИИ-серверы под ключ

Поставляем и настраиваем GPU-серверы для частных LLM, RAG и машинного зрения. От рабочей станции на RTX 5090 до кластера на H100/B200. Inference-стек vLLM + SGLang, мониторинг и гарантия - с первого дня.

  • RTX 5090 (32 ГБ GDDR7), RTX PRO 6000 (96 ГБ ECC), H100 (80 ГБ HBM3), H200 (141 ГБ HBM3e), B200 (192 ГБ HBM3e)
  • vLLM v0.22 + SGLang v0.5 - актуальный production-стек мая 2026
  • Данные не покидают ваш периметр - on-premise, air-gap при необходимости
  • Prometheus + Grafana + DCGM: GPU-метрики в реальном времени
  • Гарантия 1 - 5 лет, удалённый мониторинг, SLA с реакцией от 2 часов
Состав работ

Что входит

Полный цикл: от расчёта конфигурации до промышленной эксплуатации

Подбор GPU под модель

Рассчитываем VRAM под ваши задачи. Qwen3.6-27B в Q6_K помещается на RTX 5090, Qwen3.6-35B-A3B - тем более. Для DeepSeek V4 Pro или Kimi K2.6 нужен кластер. Считаем cost-per-token на 3 года.

Сборка и стресс-тест

Сертифицированные стоечные корпуса, инженерия питания, воздушное или жидкостное охлаждение. 48-часовой стресс-тест под 100% нагрузкой: измеряем троттлинг, стабильность, тепловой бюджет.

Inference-стек

CUDA 12.8+, Docker, vLLM v0.22, SGLang v0.5, Ollama. TGI переведён в maintenance mode в декабре 2025 - его мы не ставим. OpenAI-совместимый API endpoint из коробки.

Мониторинг

DCGM Exporter → Prometheus → Grafana: latency, throughput, KV-cache hit rate, температура GPU, потребление, алёрты при OOM kill и тепловом троттлинге.

Поддержка и обновления

Плановое обновление драйверов, прошивок, inference-серверов и моделей. SLA с реакцией от 2 часов, удалённое администрирование, замена GPU при отказе.

Интеграция

Подключение к существующей сети и СХД: L2/L3, InfiniBand для multi-GPU, бэкапы конфигов, полная документация и обучение команды.

Конфигурации

Четыре класса - от малого бизнеса до кластера под frontier-модели

Конфигурация подбирается под конкретную модель, количество пользователей и бюджет

КлассGPUVRAMПольз.Модели
Старт 1× RTX 5090 32 ГБ GDDR7 до 10 Qwen3.6-27B (Q6_K), Qwen3.6-35B-A3B (Q4), Gemma 4 26B-A4B
Бизнес 1× RTX PRO 6000 96 ГБ ECC до 50 Qwen3.6-27B (FP16), Gemma 4 31B (FP8), DeepSeek V4 Flash (Q2)
Enterprise 2 - 4× H100 / 2× H200 160 - 564 ГБ до 200 DeepSeek V4 Flash (Q4), MiniMax M2.7 (Q4), Llama 4 Maverick (Q4)
Кластер 8× H100/B200 640+ ГБ 500+ Kimi K2.6 (Q4), GLM-5.1 (Q4), DeepSeek V4 Pro (Q4), MiMo-V2.5-Pro (Q4)
Процесс

Как собираем и запускаем

  1. 01

    Расчёт конфигурации

    От модели к железу: VRAM под веса + KV-cache + overhead, throughput, batch size. Сравнение cost-per-token на 3 года с учётом доступности GPU на российском рынке.

  2. 02

    Сборка и стресс-тест

    Собираем в сертифицированных корпусах с запасом по питанию и cooling budget. 48 часов под 100% нагрузкой - фиксируем троттлинг, OOM, нестабильность.

  3. 03

    Пусконаладка и передача

    Устанавливаем CUDA, Docker, inference-серверы, мониторинг. Настраиваем API, доступы, бэкапы. Передаём в вашем контуре с документацией и обучением команды.

  4. 04

    Гарантия и сопровождение

    1 - 5 лет гарантии на железо. Удалённый мониторинг, плановое обновление стека и моделей, замена GPU при отказе. Помогаем с fine-tuning и LoRA-адаптацией.

Технический разбор

Железо и модели: актуальный ландшафт (май 2026)

GPU - что доступно и под что подходит

Главное правило: VRAM определяет класс сервера. Бюджет памяти = веса модели + KV-cache + overhead (в сумме +20 - 30% к весам). Ориентир: FP16 - ~2 байта на параметр, Q8 - ~1 байт, Q6_K - ~0,75 байта, Q4_K_M - ~0,5 байта. Для MoE-моделей в VRAM должны лежать все веса экспертов, а не только активные.

RTX 5090 (32 ГБ GDDR7, 1 792 ГБ/с, 575 Вт) - флагманский consumer GPU на Blackwell. Qwen3.6-27B в Q6_K (~20 ГБ) - рабочая лошадка с запасом под KV-cache и batch. Qwen3.6-35B-A3B (35B total / 3B active MoE) в Q4 (~17 ГБ) - ещё легче и с отличным качеством. Gemma 4 26B-A4B (26B total / 4B active MoE) в Q4 (~13 ГБ) - почти не чувствуется на 5090. Нет ECC - не для критичных производственных расчётов, но для RAG и чат-ботов - отлично.

RTX PRO 6000 Blackwell (96 ГБ ECC GDDR7, 1 792 ГБ/с, 600 Вт) - профессиональная рабочая станция. Нативный FP4, ECC-память, 4 000 AI TOPS. Qwen3.6-27B на FP16 (~54 ГБ) с 1M контекстом - не нужно квантизировать вообще. Gemma 4 31B (dense) на FP8 (~31 ГБ). DeepSeek V4 Flash (284B MoE) в Q2 (~71 ГБ) - запускается, но на грани. Нет NVLink - не для multi-GPU тензорного параллелизма.

H100 SXM5 (80 ГБ HBM3, 3,35 ТБ/с, 700 Вт) - production-стандарт для моделей от 70B. NVLink 900 ГБ/с для multi-GPU, ECC, серверный EULA. Основа Enterprise- и Cluster-конфигураций.

H200 (141 ГБ HBM3e, 4,8 ТБ/с, 700 Вт) - тот же чип GH100, но с HBM3e: ~75% больше памяти и 40% выше пропускная способность vs H100. Для задач 100B+ без мультипликации узлов.

B200 (192 ГБ HBM3e, 8 ТБ/с, до 1 200 Вт) - флагман Blackwell для дата-центров. Нативный FP4 в железе, до 4× быстрее H100 на inference. Модели 70B - 180B помещаются на одном GPU, которые на H100 требовали 2 - 3 карты.

Модели актуального открытого фронтира (апрель - май 2026)

За апрель - май 2026 вышли сразу несколько frontier-моделей с открытыми весами. Вот что реально существует на Hugging Face:

  • DeepSeek V4 Pro (DeepSeek, 24 апр, MIT) - 1.6T total / 49B active, 1M контекст. #1 open-weight на agentic coding, SWE-bench Verified 80.6%. Требует кластера: Q4 ≈ 800 ГБ VRAM.
  • DeepSeek V4 Flash (24 апр, MIT) - 284B total / 13B active, 1M контекст. Запускается на 2×H100 в Q4 (~142 ГБ). Лучший cost-per-token среди frontier-класса для batch-задач.
  • Kimi K2.6 (Moonshot AI, 20 апр, Modified MIT) - 1T total / 32B active, 256K контекст. #1 среди open-weight по Artificial Analysis Index. Оркестрация до 300 суб-агентов. Q4 ≈ 610 ГБ VRAM.
  • GLM-5.1 (Z.ai, 7 апр, MIT) - 744B total / ~40B active, 200K контекст. SWE-Bench Pro 58.4%, чистая MIT-лицензия. Оптимален для enterprise self-hosting.
  • MiMo-V2.5-Pro (Xiaomi, 22 апр, Apache 2.0) - 1.02T total / 42B active, 1M контекст. Вровень с Kimi K2.6 на AA Index. Apache 2.0 без оговорок.
  • Qwen3.6-27B (Alibaba, 22 апр, Apache 2.0) - лидер по tool calling (MCPMark), 1M контекст. На RTX 5090 в Q6_K - лучший single-GPU вариант для кода и агентов.
  • Qwen3.6-35B-A3B (Alibaba, Apache 2.0) - MoE-вариант: 35B total / 3B active. Экстремально экономичный инференс, качество выше 27B при меньшем VRAM.
  • Gemma 4 26B-A4B / 31B (Google DeepMind, 2 апр, Apache 2.0) - 26B MoE (4B active) и 31B dense. 256K контекст, мультимодальные, Apache 2.0. 26B версия - чемпион по качеству на гигабайт.
  • MiniMax M2.7 (MiniMax, 18 мар, Apache 2.0) - 230B total / 10B active, мультимодальный (voice/video). 2×H200 или 3×H100 для FP8-инференса.
  • Llama 4 Maverick (Meta, апр 2025) - 400B total / 17B active, 1M контекст. Требует минимум 3×H100 в Q4.

Inference-стек 2026: vLLM vs SGLang

Hugging Face перевёл Text Generation Inference (TGI) в maintenance mode в декабре 2025 - для новых проектов его не используем.

ОС: Ubuntu 24.04 / Rocky 9
GPU: NVIDIA драйверы, CUDA 12.8+
Инференс: vLLM v0.22 - де-факто стандарт, широкая совместимость
          SGLang v0.5 - RAG, multi-turn, DeepSeek V4, structured outputs
Опционально: Ollama (прототипы), TensorRT-LLM (предельная производительность)
Мониторинг: DCGM Exporter → Prometheus → Grafana
Оркестрация: Docker Compose / Kubernetes

vLLM v0.22 (май 2026): поддержка DeepSeek V4, CUDA 13, PyTorch 2.11, Transformers v5, TurboQuant 2-bit KV-cache. Model Runner V2, FP8/FP4 на Blackwell, speculative decoding. 80 000+ звёзд на GitHub, 2 000+ контрибьюторов, используют Meta, Mistral AI, Cohere, IBM.

SGLang v0.5 (май 2026): RadixAttention даёт до 29% выше throughput vs vLLM на H100 и до 6,4× на prefix-heavy RAG. ShadowRadix - нативный prefix caching для DeepSeek V4. DeepSeek официально рекомендует SGLang для production. Развёрнут на 400 000+ GPU у xAI, LinkedIn, AMD, NVIDIA.

Выбираем под задачу: SGLang для RAG и multi-turn диалогов, vLLM для batch-инференса. В большинстве инсталляций ставим оба.

Российский контекст

Российский рынок в отличие от глобального тяготеет к on-premises: санкционные ограничения и регуляторные требования к локализации данных делают собственный сервер необходимостью. Enterprise-карты (H100, H200) доступны ограниченно. В первую очередь рассматриваем RTX 5090, RTX PRO 6000 и российские серверные платформы. Работаем с проверенными каналами поставок и даём гарантию на всё железо.

Инженерные ограничения

GPU-сервер - не обычный сервер. RTX 5090 потребляет 575 Вт, H100 - 700 Вт, B200 - до 1 200 Вт, кластер из 8 карт - 10+ кВт на стойку. Рассчитываем ИБП, охлаждение и стойку на этапе аудита. Без этого сервер может не запуститься в вашем ДЦ - или начать троттлить через 10 минут под нагрузкой.

Риски

Ошибки, которых мы не допускаем

Типовые проблемы при выборе GPU-инфраструктуры

Недостаток VRAM для MoE

Для MoE-моделей в VRAM должны лежать все веса экспертов, а не только активные. Kimi K2.6 (1T total) в Q4 требует ~610 ГБ. Без кластера не обойтись.

Игнорирование охлаждения

H100 без proper airflow троттлит через 10 минут под нагрузкой. Тихий корпус для ИИ-сервера - не вариант. Считаем тепловой бюджет до заказа железа.

Экономия на NVLink

Tensor parallelism через PCIe без NVLink даёт 60 - 70% утилизации GPU. NVLink (900 ГБ/с на H100) обязателен для multi-GPU инференса. RTX PRO 6000 NVLink не поддерживает.

Переплата за избыточность

Для Qwen3.6-27B или 35B-A3B не нужен H100. RTX 5090 в Q6_K даёт тот же результат в 3 - 5 раз дешевле. Считаем cost-per-token, а не TFLOPS абстрактно.

TGI устарел

Hugging Face перевёл TGI в maintenance mode в декабре 2025. Новые production-инсталляции - только vLLM v0.22 или SGLang v0.5: поддержка Blackwell, FP4, актуальные модели.

Нет мониторинга GPU

Без DCGM + Prometheus OOM kill и троттлинг обнаруживаются постфактум - в продакшне это часы простоя. Мониторинг - обязательная часть пусконаладки.

Нужен ИИ-сервер?

Назовите модели, количество пользователей и требования к приватности - рассчитаем конфигурацию, стоимость владения и сроки поставки.