Практика
30 апреля 2026 · 5 мин чтения · AI Platforms

Локальная LLM в России: как собрать рабочий сервер на consumer GPU

Enterprise-GPU и rack-scale платформы не всегда доступны, поэтому на первый план выходят RTX 5090, RTX 4090, used 3090 - и правильная сборка. А с появлением RTX PRO 6000 Blackwell на 96 GB возник новый класс: workstation-карта, которая уже тянет большие модели.

Российский рынок и его ограничения

Международный enterprise-рынок и российская реальность заметно отличаются. В одном случае вы выбираете между Blackwell, Hopper и MI350, а в другом сначала думаете о доступности, сроках поставки, сервисе, гарантии и том, как обслуживать сервер без сюрпризов.

По данным аналитики GPU-рынка России на 2026 год: рынок импортозависим, коммерчески значимого отечественного производства GPU-ускорителей нет. Российские сборщики (DigitalRazor и другие) предлагают workstation-решения на импортных картах. Отечественные процессоры («Эльбрус», «Байкал», «Иртыш») есть, но GPU-часть всё ещё требует зарубежных компонентов.

Поэтому для России вопрос локальной LLM почти всегда шире, чем «какая GPU быстрее». На практике решает не только производительность, но и то, что можно купить, собрать, поддерживать и не простаивать в ожидании замены.

Если вам нужен международный enterprise-разбор с datacenter- и rack-scale-платформами - Железо под локальную LLM в 2026.

Варианты GPU для локальной LLM в России

RTX 5090 - верхний consumer

32 GB GDDR7, ~$2,000. 30 - 50% быстрее 4090 на инференсе. 186 tok/s на Qwen3 8B. Позволяет комфортно работать с RAG, агентами и средними моделями.

RTX 4090 - рабочий компромисс

24 GB G6X, ~$1,600. Всё ещё сильный выбор для пилотов, малых RAG-серверов и командных ассистентов. Самый здравый баланс цена/доступность/результат.

Used RTX 3090 - бюджетный вход

24 GB G6X, $600 - 800 на вторичке. 80 - 92% производительности 4090 для LLM за 55% цены. Требует проверки памяти, охлаждения и истории нагрузки.

RTX PRO 6000 Blackwell

96 GB GDDR7 ECC, workstation/server-класс. Меняет правила: одна карта тянет 70B-модели в Q4. Для России пока экзотика, но важный ориентир.

16 GB-класс - только старт

RTX 5080 (16 GB) и аналоги. Для демо и экспериментов. Для серьёзного RAG, агентов и контекста - быстро упираются в потолок VRAM.

Multi-GPU - когда одной мало

Две 4090/5090 дают 48 - 64 GB. Важно: плата с достаточным расстоянием между слотами, мощный PSU, корпус с хорошим airflow. Не каждая сборка тянет две карты.

Как собирать сервер правильно

Полный контур, а не одна карта

Самая распространённая ошибка - купить хорошую GPU и поставить её в плохую систему. Для consumer-сервера критичен весь контур:

  • Материнская плата: нормальные PCIe-линии, достаточное расстояние между слотами для двух карт. Серверные платы с IPMI для удалённого управления экономят кучу времени.
  • PSU: с запасом. RTX 5090 - до 575 Вт, 4090 - 450 Вт. Две карты + система = 1200 - 1600 Вт от качественного блока.
  • Корпус: workstation или стойка с продуманным airflow. Consumer GPU любят хорошую вентиляцию. Лучше переохладить, чем троттлить.
  • RAM: host memory для spill-over, системных нужд, кэша. 64 - 128 GB - рабочий минимум.
  • NVMe: быстрый диск под веса моделей, индексы, кэш и логи. Разница между SATA SSD и NVMe на загрузке 70B-модели - минуты против секунд.

Одна карта vs две

Для одиночной карты достаточно хорошего workstation-корпуса. Для двух - нужна аккуратная компоновка, airflow и тепловой запас. Не каждая плата физически вмещает две 3.5-слотовые карты с достаточным зазором.

Удалённое администрирование

IPMI, BMC, Wake-on-LAN - не роскошь. Без этого каждый зависший сервер превращается в поход в серверную.

Consumer GPU - не «дешёвый enterprise»

Consumer-карты не рассчитаны на 24/7 под нагрузкой в серверной стойке. У них нет ECC-памяти (кроме RTX PRO 6000), нет passthrough/vGPU, нет серверной гарантии. Для пилотов, малых команд и одного подразделения - отлично. Для production-сервиса с SLA - нужен enterprise-класс. Не обманывайте себя: потребительская карта не становится серверной от того, что её поставили в стойку.

Архитектурные стратегии: как выжать больше из меньшего

RAG вместо большой модели

Не пытайтесь запихнуть все знания в веса. Компактная модель + RAG по документам часто работает лучше, чем огромная модель без доступа к данным.

Квантование

Q4_K_M, Q5_K_M, Q6_K, Q8_0. Правильный quant на 24 GB позволяет запускать 32B - 70B модели, которые в FP16 требуют вдвое больше VRAM.

Tool-use вместо лишней генерации

Агент, который вызывает инструменты, экономит и память, и время. Не генерирует - проверяет, ищет, добирает.

Ограничение контекста

KV-cache растёт с длиной контекста. На 24 GB это критично. Не давайте 128K там, где хватает 16K. Управляйте окном осознанно.

Inference stack

vLLM, SGLang, llama.cpp, LM Studio. Правильный backend под конкретную модель и железо. Не «что первое попалось».

Мониторинг

Prometheus + Grafana. VRAM, температура, утилизация GPU, latency, throughput, queue depth. Без метрик вы не знаете, где бутылочное горлышко.

Когда consumer GPU уже недостаточно

Признаки, что вы переросли consumer-формат

  • У вас много одновременных пользователей и нужна очередь запросов.
  • Нужен жёсткий SLA и предсказуемая деградация под нагрузкой.
  • Появляются длинные контексты (128K+), тяжёлый RAG и несколько моделей одновременно.
  • Вы работаете с чувствительными данными и требуется строгий контроль платформы (ECC-память, vGPU, аппаратная изоляция).
  • Обслуживание сервера не должно зависеть от одной карты, которую сложно заменить.

В этом случае - enterprise-карты (H100, H200, L40S, RTX PRO 6000 Server Edition), rack-scale платформы и datacenter-инфраструктура. См. Железо под локальную LLM в 2026.

Гибридный подход

Практичная схема для среднего бизнеса: consumer-GPU для быстрых пилотов и некритичных задач + enterprise-инфраструктура для production-нагрузки. Не надо сразу строить ЦОД - начните с одной хорошей карты в workstation и растите по мере реальной потребности.

RTX PRO 6000 Blackwell - промежуточный класс

96 GB GDDR7 ECC на одной карте - это уже не consumer, но ещё не полноценный datacenter GPU (нет NVLink, нет MIG). Для локальной LLM в России это важный ориентир: появляется класс железа, на котором можно запускать большие модели без кластера. Цена и доступность в РФ пока под вопросом, но направление понятно.

Сравнение GPU для локальной LLM

GPUVRAMGB/stok/s*$, новый / usedНазначение
RTX 5090 32 GB GDDR7 1792 ~90 ~2 000 / - RAG, агенты, средние модели, 1 - 5 пользователей
RTX 4090 24 GB G6X 1008 ~60 ~1 600 / - Пилоты, малый RAG, командный ассистент
RTX 3090 24 GB G6X 936 ~50 - / 600 - 800 Бюджетный старт, 7B - 32B модели
RTX 5080 16 GB GDDR7 960 ~50 ~1 000 / - Демо, лёгкие модели
RTX PRO 6000 96 GB GDDR7 ECC 1792 ~97 ~8 500 / - 70B-модели, production RAG
2× RTX 4090 48 GB 1008×2 ~110 ~3 200 / - 32B - 70B в Q4, многопользовательский RAG

Соберём конфигурацию под ваши задачи

Мы не продаём железо, но проектируем контур под реальную нагрузку: модель, RAG, агенты, пользователи, latency, бюджет и доступность в России. Предложим спецификацию и архитектуру, на которых можно запускаться.