ИИ-серверы под ключ

Состав работ

Что входит

Полный цикл: от расчёта конфигурации до промышленной эксплуатации

Подбор GPU под модель

Рассчитываем VRAM под ваши задачи. Qwen3.6-27B в Q6_K помещается на RTX 5090, Qwen3.6-35B-A3B - тем более. Для DeepSeek V4 Pro или Kimi K2.6 нужен кластер. Считаем cost-per-token на 3 года.

Сборка и стресс-тест

Сертифицированные стоечные корпуса, инженерия питания, воздушное или жидкостное охлаждение. 48-часовой стресс-тест под 100% нагрузкой: измеряем троттлинг, стабильность, тепловой бюджет.

Inference-стек

CUDA 12.8+, Docker, vLLM v0.22, SGLang v0.5, Ollama. TGI переведён в maintenance mode в декабре 2025 - его мы не ставим. OpenAI-совместимый API endpoint из коробки.

Мониторинг

DCGM Exporter → Prometheus → Grafana: latency, throughput, KV-cache hit rate, температура GPU, потребление, алёрты при OOM kill и тепловом троттлинге.

Поддержка и обновления

Плановое обновление драйверов, прошивок, inference-серверов и моделей. SLA с реакцией от 2 часов, удалённое администрирование, замена GPU при отказе.

Интеграция

Подключение к существующей сети и СХД: L2/L3, InfiniBand для multi-GPU, бэкапы конфигов, полная документация и обучение команды.

Конфигурации

Четыре класса - от малого бизнеса до кластера под frontier-модели

Конфигурация подбирается под конкретную модель, количество пользователей и бюджет

Класс	GPU	VRAM	Польз.	Модели
Старт	1× RTX 5090	32 ГБ GDDR7	до 10	Qwen3.6-27B (Q6_K), Qwen3.6-35B-A3B (Q4), Gemma 4 26B-A4B
Бизнес	1× RTX PRO 6000	96 ГБ ECC	до 50	Qwen3.6-27B (FP16), Gemma 4 31B (FP8), DeepSeek V4 Flash (Q2)
Enterprise	2 - 4× H100 / 2× H200	160 - 564 ГБ	до 200	DeepSeek V4 Flash (Q4), MiniMax M2.7 (Q4), Llama 4 Maverick (Q4)
Кластер	8× H100/B200	640+ ГБ	500+	Kimi K2.6 (Q4), GLM-5.1 (Q4), DeepSeek V4 Pro (Q4), MiMo-V2.5-Pro (Q4)

Процесс

Как собираем и запускаем

01

Расчёт конфигурации

От модели к железу: VRAM под веса + KV-cache + overhead, throughput, batch size. Сравнение cost-per-token на 3 года с учётом доступности GPU на российском рынке.
02

Сборка и стресс-тест

Собираем в сертифицированных корпусах с запасом по питанию и cooling budget. 48 часов под 100% нагрузкой - фиксируем троттлинг, OOM, нестабильность.
03

Пусконаладка и передача

Устанавливаем CUDA, Docker, inference-серверы, мониторинг. Настраиваем API, доступы, бэкапы. Передаём в вашем контуре с документацией и обучением команды.
04

Гарантия и сопровождение

1 - 5 лет гарантии на железо. Удалённый мониторинг, плановое обновление стека и моделей, замена GPU при отказе. Помогаем с fine-tuning и LoRA-адаптацией.

Технический разбор

Железо и модели: актуальный ландшафт (май 2026)

GPU - что доступно и под что подходит

Главное правило: VRAM определяет класс сервера. Бюджет памяти = веса модели + KV-cache + overhead (в сумме +20 - 30% к весам). Ориентир: FP16 - ~2 байта на параметр, Q8 - ~1 байт, Q6_K - ~0,75 байта, Q4_K_M - ~0,5 байта. Для MoE-моделей в VRAM должны лежать все веса экспертов, а не только активные.

RTX 5090 (32 ГБ GDDR7, 1 792 ГБ/с, 575 Вт) - флагманский consumer GPU на Blackwell. Qwen3.6-27B в Q6_K (~20 ГБ) - рабочая лошадка с запасом под KV-cache и batch. Qwen3.6-35B-A3B (35B total / 3B active MoE) в Q4 (~17 ГБ) - ещё легче и с отличным качеством. Gemma 4 26B-A4B (26B total / 4B active MoE) в Q4 (~13 ГБ) - почти не чувствуется на 5090. Нет ECC - не для критичных производственных расчётов, но для RAG и чат-ботов - отлично.

RTX PRO 6000 Blackwell (96 ГБ ECC GDDR7, 1 792 ГБ/с, 600 Вт) - профессиональная рабочая станция. Нативный FP4, ECC-память, 4 000 AI TOPS. Qwen3.6-27B на FP16 (~54 ГБ) с 1M контекстом - не нужно квантизировать вообще. Gemma 4 31B (dense) на FP8 (~31 ГБ). DeepSeek V4 Flash (284B MoE) в Q2 (~71 ГБ) - запускается, но на грани. Нет NVLink - не для multi-GPU тензорного параллелизма.

H100 SXM5 (80 ГБ HBM3, 3,35 ТБ/с, 700 Вт) - production-стандарт для моделей от 70B. NVLink 900 ГБ/с для multi-GPU, ECC, серверный EULA. Основа Enterprise- и Cluster-конфигураций.

H200 (141 ГБ HBM3e, 4,8 ТБ/с, 700 Вт) - тот же чип GH100, но с HBM3e: ~75% больше памяти и 40% выше пропускная способность vs H100. Для задач 100B+ без мультипликации узлов.

B200 (192 ГБ HBM3e, 8 ТБ/с, до 1 200 Вт) - флагман Blackwell для дата-центров. Нативный FP4 в железе, до 4× быстрее H100 на inference. Модели 70B - 180B помещаются на одном GPU, которые на H100 требовали 2 - 3 карты.

Модели актуального открытого фронтира (апрель - май 2026)

За апрель - май 2026 вышли сразу несколько frontier-моделей с открытыми весами. Вот что реально существует на Hugging Face:

DeepSeek V4 Pro (DeepSeek, 24 апр, MIT) - 1.6T total / 49B active, 1M контекст. #1 open-weight на agentic coding, SWE-bench Verified 80.6%. Требует кластера: Q4 ≈ 800 ГБ VRAM.
DeepSeek V4 Flash (24 апр, MIT) - 284B total / 13B active, 1M контекст. Запускается на 2×H100 в Q4 (~142 ГБ). Лучший cost-per-token среди frontier-класса для batch-задач.
Kimi K2.6 (Moonshot AI, 20 апр, Modified MIT) - 1T total / 32B active, 256K контекст. #1 среди open-weight по Artificial Analysis Index. Оркестрация до 300 суб-агентов. Q4 ≈ 610 ГБ VRAM.
GLM-5.1 (Z.ai, 7 апр, MIT) - 744B total / ~40B active, 200K контекст. SWE-Bench Pro 58.4%, чистая MIT-лицензия. Оптимален для enterprise self-hosting.
MiMo-V2.5-Pro (Xiaomi, 22 апр, Apache 2.0) - 1.02T total / 42B active, 1M контекст. Вровень с Kimi K2.6 на AA Index. Apache 2.0 без оговорок.
Qwen3.6-27B (Alibaba, 22 апр, Apache 2.0) - лидер по tool calling (MCPMark), 1M контекст. На RTX 5090 в Q6_K - лучший single-GPU вариант для кода и агентов.
Qwen3.6-35B-A3B (Alibaba, Apache 2.0) - MoE-вариант: 35B total / 3B active. Экстремально экономичный инференс, качество выше 27B при меньшем VRAM.
Gemma 4 26B-A4B / 31B (Google DeepMind, 2 апр, Apache 2.0) - 26B MoE (4B active) и 31B dense. 256K контекст, мультимодальные, Apache 2.0. 26B версия - чемпион по качеству на гигабайт.
MiniMax M2.7 (MiniMax, 18 мар, Apache 2.0) - 230B total / 10B active, мультимодальный (voice/video). 2×H200 или 3×H100 для FP8-инференса.
Llama 4 Maverick (Meta, апр 2025) - 400B total / 17B active, 1M контекст. Требует минимум 3×H100 в Q4.

Inference-стек 2026: vLLM vs SGLang

Hugging Face перевёл Text Generation Inference (TGI) в maintenance mode в декабре 2025 - для новых проектов его не используем.

ОС: Ubuntu 24.04 / Rocky 9
GPU: NVIDIA драйверы, CUDA 12.8+
Инференс: vLLM v0.22 - де-факто стандарт, широкая совместимость
          SGLang v0.5 - RAG, multi-turn, DeepSeek V4, structured outputs
Опционально: Ollama (прототипы), TensorRT-LLM (предельная производительность)
Мониторинг: DCGM Exporter → Prometheus → Grafana
Оркестрация: Docker Compose / Kubernetes

vLLM v0.22 (май 2026): поддержка DeepSeek V4, CUDA 13, PyTorch 2.11, Transformers v5, TurboQuant 2-bit KV-cache. Model Runner V2, FP8/FP4 на Blackwell, speculative decoding. 80 000+ звёзд на GitHub, 2 000+ контрибьюторов, используют Meta, Mistral AI, Cohere, IBM.

SGLang v0.5 (май 2026): RadixAttention даёт до 29% выше throughput vs vLLM на H100 и до 6,4× на prefix-heavy RAG. ShadowRadix - нативный prefix caching для DeepSeek V4. DeepSeek официально рекомендует SGLang для production. Развёрнут на 400 000+ GPU у xAI, LinkedIn, AMD, NVIDIA.

Выбираем под задачу: SGLang для RAG и multi-turn диалогов, vLLM для batch-инференса. В большинстве инсталляций ставим оба.

Российский контекст

Российский рынок в отличие от глобального тяготеет к on-premises: санкционные ограничения и регуляторные требования к локализации данных делают собственный сервер необходимостью. Enterprise-карты (H100, H200) доступны ограниченно. В первую очередь рассматриваем RTX 5090, RTX PRO 6000 и российские серверные платформы. Работаем с проверенными каналами поставок и даём гарантию на всё железо.

Инженерные ограничения

GPU-сервер - не обычный сервер. RTX 5090 потребляет 575 Вт, H100 - 700 Вт, B200 - до 1 200 Вт, кластер из 8 карт - 10+ кВт на стойку. Рассчитываем ИБП, охлаждение и стойку на этапе аудита. Без этого сервер может не запуститься в вашем ДЦ - или начать троттлить через 10 минут под нагрузкой.

Риски

Ошибки, которых мы не допускаем

Типовые проблемы при выборе GPU-инфраструктуры

Недостаток VRAM для MoE

Для MoE-моделей в VRAM должны лежать все веса экспертов, а не только активные. Kimi K2.6 (1T total) в Q4 требует ~610 ГБ. Без кластера не обойтись.

Игнорирование охлаждения

H100 без proper airflow троттлит через 10 минут под нагрузкой. Тихий корпус для ИИ-сервера - не вариант. Считаем тепловой бюджет до заказа железа.

Экономия на NVLink

Tensor parallelism через PCIe без NVLink даёт 60 - 70% утилизации GPU. NVLink (900 ГБ/с на H100) обязателен для multi-GPU инференса. RTX PRO 6000 NVLink не поддерживает.

Переплата за избыточность

Для Qwen3.6-27B или 35B-A3B не нужен H100. RTX 5090 в Q6_K даёт тот же результат в 3 - 5 раз дешевле. Считаем cost-per-token, а не TFLOPS абстрактно.

TGI устарел

Hugging Face перевёл TGI в maintenance mode в декабре 2025. Новые production-инсталляции - только vLLM v0.22 или SGLang v0.5: поддержка Blackwell, FP4, актуальные модели.

Нет мониторинга GPU

Без DCGM + Prometheus OOM kill и троттлинг обнаруживаются постфактум - в продакшне это часы простоя. Мониторинг - обязательная часть пусконаладки.

Каталог услуг

Другие услуги

Генеративное ИИ-радио и звуковая идентичность для бизнеса Локальная система создаёт непрерывный фирменный музыкальный эфир для кафе, ресторанов, отелей, … Машинное зрение Системы машинного зрения для промышленности: контроль качества, дефектоскопия, сортировка, изме… ИИ-боты и агенты Проектируем и внедряем интеллектуальных ботов в Telegram, WhatsApp, корпоративные порталы и веб… Видеоаналитика и безопасность на объекте Системы интеллектуальной видеоаналитики для промышленных объектов, складов и периметров: детекц…

Нужен ИИ-сервер?

Назовите модели, количество пользователей и требования к приватности - рассчитаем конфигурацию, стоимость владения и сроки поставки.

Рассчитать конфигурацию

Подбор GPU под модель

Сборка и стресс-тест

Inference-стек

Мониторинг

Поддержка и обновления

Интеграция

Расчёт конфигурации

Сборка и стресс-тест

Пусконаладка и передача

Гарантия и сопровождение

GPU - что доступно и под что подходит

Модели актуального открытого фронтира (апрель - май 2026)

Inference-стек 2026: vLLM vs SGLang

Российский контекст

Инженерные ограничения

Недостаток VRAM для MoE

Игнорирование охлаждения

Экономия на NVLink

Переплата за избыточность

TGI устарел

Нет мониторинга GPU

Другие услуги

Нужен ИИ-сервер?