Локальная LLM в России: как собрать рабочий сервер на consumer GPU
Enterprise-GPU и rack-scale платформы не всегда доступны, поэтому на первый план выходят RTX 5090, RTX 4090, used 3090 - и правильная сборка. А с появлением RTX PRO 6000 Blackwell на 96 GB возник новый класс: workstation-карта, которая уже тянет большие модели.
Российский рынок и его ограничения
Международный enterprise-рынок и российская реальность заметно отличаются. В одном случае вы выбираете между Blackwell, Hopper и MI350, а в другом сначала думаете о доступности, сроках поставки, сервисе, гарантии и том, как обслуживать сервер без сюрпризов.
По данным аналитики GPU-рынка России на 2026 год: рынок импортозависим, коммерчески значимого отечественного производства GPU-ускорителей нет. Российские сборщики (DigitalRazor и другие) предлагают workstation-решения на импортных картах. Отечественные процессоры («Эльбрус», «Байкал», «Иртыш») есть, но GPU-часть всё ещё требует зарубежных компонентов.
Поэтому для России вопрос локальной LLM почти всегда шире, чем «какая GPU быстрее». На практике решает не только производительность, но и то, что можно купить, собрать, поддерживать и не простаивать в ожидании замены.
Если вам нужен международный enterprise-разбор с datacenter- и rack-scale-платформами - Железо под локальную LLM в 2026.
Варианты GPU для локальной LLM в России
RTX 5090 - верхний consumer
32 GB GDDR7, ~$2,000. 30 - 50% быстрее 4090 на инференсе. 186 tok/s на Qwen3 8B. Позволяет комфортно работать с RAG, агентами и средними моделями.
RTX 4090 - рабочий компромисс
24 GB G6X, ~$1,600. Всё ещё сильный выбор для пилотов, малых RAG-серверов и командных ассистентов. Самый здравый баланс цена/доступность/результат.
Used RTX 3090 - бюджетный вход
24 GB G6X, $600 - 800 на вторичке. 80 - 92% производительности 4090 для LLM за 55% цены. Требует проверки памяти, охлаждения и истории нагрузки.
RTX PRO 6000 Blackwell
96 GB GDDR7 ECC, workstation/server-класс. Меняет правила: одна карта тянет 70B-модели в Q4. Для России пока экзотика, но важный ориентир.
16 GB-класс - только старт
RTX 5080 (16 GB) и аналоги. Для демо и экспериментов. Для серьёзного RAG, агентов и контекста - быстро упираются в потолок VRAM.
Multi-GPU - когда одной мало
Две 4090/5090 дают 48 - 64 GB. Важно: плата с достаточным расстоянием между слотами, мощный PSU, корпус с хорошим airflow. Не каждая сборка тянет две карты.
Как собирать сервер правильно
Полный контур, а не одна карта
Самая распространённая ошибка - купить хорошую GPU и поставить её в плохую систему. Для consumer-сервера критичен весь контур:
- Материнская плата: нормальные PCIe-линии, достаточное расстояние между слотами для двух карт. Серверные платы с IPMI для удалённого управления экономят кучу времени.
- PSU: с запасом. RTX 5090 - до 575 Вт, 4090 - 450 Вт. Две карты + система = 1200 - 1600 Вт от качественного блока.
- Корпус: workstation или стойка с продуманным airflow. Consumer GPU любят хорошую вентиляцию. Лучше переохладить, чем троттлить.
- RAM: host memory для spill-over, системных нужд, кэша. 64 - 128 GB - рабочий минимум.
- NVMe: быстрый диск под веса моделей, индексы, кэш и логи. Разница между SATA SSD и NVMe на загрузке 70B-модели - минуты против секунд.
Одна карта vs две
Для одиночной карты достаточно хорошего workstation-корпуса. Для двух - нужна аккуратная компоновка, airflow и тепловой запас. Не каждая плата физически вмещает две 3.5-слотовые карты с достаточным зазором.
Удалённое администрирование
IPMI, BMC, Wake-on-LAN - не роскошь. Без этого каждый зависший сервер превращается в поход в серверную.
Consumer GPU - не «дешёвый enterprise»
Consumer-карты не рассчитаны на 24/7 под нагрузкой в серверной стойке. У них нет ECC-памяти (кроме RTX PRO 6000), нет passthrough/vGPU, нет серверной гарантии. Для пилотов, малых команд и одного подразделения - отлично. Для production-сервиса с SLA - нужен enterprise-класс. Не обманывайте себя: потребительская карта не становится серверной от того, что её поставили в стойку.
Архитектурные стратегии: как выжать больше из меньшего
RAG вместо большой модели
Не пытайтесь запихнуть все знания в веса. Компактная модель + RAG по документам часто работает лучше, чем огромная модель без доступа к данным.
Квантование
Q4_K_M, Q5_K_M, Q6_K, Q8_0. Правильный quant на 24 GB позволяет запускать 32B - 70B модели, которые в FP16 требуют вдвое больше VRAM.
Tool-use вместо лишней генерации
Агент, который вызывает инструменты, экономит и память, и время. Не генерирует - проверяет, ищет, добирает.
Ограничение контекста
KV-cache растёт с длиной контекста. На 24 GB это критично. Не давайте 128K там, где хватает 16K. Управляйте окном осознанно.
Inference stack
vLLM, SGLang, llama.cpp, LM Studio. Правильный backend под конкретную модель и железо. Не «что первое попалось».
Мониторинг
Prometheus + Grafana. VRAM, температура, утилизация GPU, latency, throughput, queue depth. Без метрик вы не знаете, где бутылочное горлышко.
Когда consumer GPU уже недостаточно
Признаки, что вы переросли consumer-формат
- У вас много одновременных пользователей и нужна очередь запросов.
- Нужен жёсткий SLA и предсказуемая деградация под нагрузкой.
- Появляются длинные контексты (128K+), тяжёлый RAG и несколько моделей одновременно.
- Вы работаете с чувствительными данными и требуется строгий контроль платформы (ECC-память, vGPU, аппаратная изоляция).
- Обслуживание сервера не должно зависеть от одной карты, которую сложно заменить.
В этом случае - enterprise-карты (H100, H200, L40S, RTX PRO 6000 Server Edition), rack-scale платформы и datacenter-инфраструктура. См. Железо под локальную LLM в 2026.
Гибридный подход
Практичная схема для среднего бизнеса: consumer-GPU для быстрых пилотов и некритичных задач + enterprise-инфраструктура для production-нагрузки. Не надо сразу строить ЦОД - начните с одной хорошей карты в workstation и растите по мере реальной потребности.
RTX PRO 6000 Blackwell - промежуточный класс
96 GB GDDR7 ECC на одной карте - это уже не consumer, но ещё не полноценный datacenter GPU (нет NVLink, нет MIG). Для локальной LLM в России это важный ориентир: появляется класс железа, на котором можно запускать большие модели без кластера. Цена и доступность в РФ пока под вопросом, но направление понятно.
Сравнение GPU для локальной LLM
| GPU | VRAM | GB/s | tok/s* | $, новый / used | Назначение |
|---|---|---|---|---|---|
| RTX 5090 | 32 GB GDDR7 | 1792 | ~90 | ~2 000 / - | RAG, агенты, средние модели, 1 - 5 пользователей |
| RTX 4090 | 24 GB G6X | 1008 | ~60 | ~1 600 / - | Пилоты, малый RAG, командный ассистент |
| RTX 3090 | 24 GB G6X | 936 | ~50 | - / 600 - 800 | Бюджетный старт, 7B - 32B модели |
| RTX 5080 | 16 GB GDDR7 | 960 | ~50 | ~1 000 / - | Демо, лёгкие модели |
| RTX PRO 6000 | 96 GB GDDR7 ECC | 1792 | ~97 | ~8 500 / - | 70B-модели, production RAG |
| 2× RTX 4090 | 48 GB | 1008×2 | ~110 | ~3 200 / - | 32B - 70B в Q4, многопользовательский RAG |
Соберём конфигурацию под ваши задачи
Мы не продаём железо, но проектируем контур под реальную нагрузку: модель, RAG, агенты, пользователи, latency, бюджет и доступность в России. Предложим спецификацию и архитектуру, на которых можно запускаться.