Железо под локальную LLM в 2026: как выбрать конфигурацию под свою нагрузку
Разбор международного enterprise-рынка: Blackwell B200/B300, H200, MI355X, RTX PRO 6000, DGX и GB200 NVL72. От рабочей станции за $10K до rack-scale за $500K+. vLLM tensor parallelism, VRAM-калькулятор, NVLink, NVMe и софт-стек.
Что изменилось в 2026
Если раньше локальную LLM выбирали по принципу «лишь бы влезло в GPU», то в 2026 году картина стала жёстче и честнее. Для production-нагрузки важны не только TFLOPS, но и объём памяти, bandwidth, интерконнект между GPU, качество CPU-хоста, NVMe-слой и inference stack.
Три архитектуры NVIDIA активны одновременно: Hopper (H100/H200) - зрелые и доступные, Blackwell (B200/B300) - рампятся с падающими ценами, Rubin (R100) - вторая половина 2026. Плюс AMD с MI300X/MI355X и открытым ROCm стеком.
Хороший AI-сервер сегодня - это не мощная видеокарта в корпусе. Это сбалансированная система: память под веса и KV-cache, скорость доставки данных, пропускная способность между картами, CPU не должен быть узким горлом.
Пять вопросов перед выбором железа: какая модель будет основной (7B, 32B, 70B, 405B+)? Только инференс или ещё дообучение? Сколько одновременных пользователей? Какой нужен контекст (короткий чат или 128K+ RAG)? Один сервер, несколько узлов или rack-scale?
Эта статья - про международный enterprise-рынок. Для российских реалий и consumer GPU - отдельный материал.
Уровни: от пилота до rack-scale
Уровень 1: Рабочая станция
RTX PRO 6000 Blackwell - 96 GB GDDR7. Workstation (1792 GB/s) для R&D, Server (1597 GB/s, MIG до 4 инстансов) для малых production. $8 - 12K за карту.
Уровень 2: Сервер на команду
RTX PRO 6000 Server Edition ×1 - 2, или H200 (141 GB HBM3e, 4.8 TB/s). 2 - 10 пользователей, RAG, агенты. NVMe, 64 - 128 GB RAM, EPYC 9005.
Уровень 3: Multi-GPU
H200 ×4 - 8, B200 ×8. NVLink 5: 1.8 TB/s на GPU. Tensor parallelism через vLLM/SGLang. Модели 70B - 405B без агрессивного квантования.
Уровень 4: DGX
DGX B200: 8× Blackwell, 1440 GB суммарно, 14.4 TB/s NVLink, 400 Gb/s сеть. DGX B300: 2.1 TB GPU-памяти, до 800 Gb/s. ~$250 - 550K.
Уровень 5: Rack-scale
GB200 NVL72: 36 Grace CPU + 72 Blackwell GPU, liquid-cooled. 30× быстрее trillion-parameter inference. AI-factory класс.
Альтернатива: AMD
Instinct MI355X: 288 GB HBM3e, 8 TB/s. Открытый ROCm стек. Для тех, кому важен максимальный объём памяти и отсутствие vendor lock-in.
GPU детально: Blackwell, Hopper и AMD
Blackwell (B200/B300)
Blackwell - флагман 2026: 208B транзисторов, два reticle-limited кристалла, соединённых 10 TB/s чип-к-чипу. B200: 192 GB HBM3e, до 20 PFLOPS FP4. Цена: $30 - 40K за GPU. NVLink 5: 1.8 TB/s на GPU. Ключевое преимущество - FP4 inference: 5× быстрее H100 на тех же задачах.
Hopper (H100/H200)
Зрелая платформа, широко доступна. H100: 80 GB HBM3, 3.35 TB/s. H200: 141 GB HBM3e, 4.8 TB/s - на 76% больше памяти и 43% быстрее bandwidth, чем H100. Для LLM inference H200 часто оптимален: помещается 70B-модель в FP8 без шардирования.
L40S
48 GB GDDR6, без HBM. Значительно дешевле H100. Для лёгких моделей (7B - 13B) и высокого concurrency - лучший cost-per-inference. Но для больших LLM памяти не хватает.
RTX PRO 6000 Blackwell
96 GB GDDR7. Две версии: Workstation (1792 GB/s, 600W) и Server (1597 GB/s, 600W, MIG, пассивное охлаждение). Server Edition поддерживает до 4 изолированных MIG-инстансов - можно раздать разным командам. Промежуточный класс между consumer и datacenter.
AMD Instinct MI355X
288 GB HBM3e, 8 TB/s bandwidth. Открытый ROCm 6.x стек. Для сценариев, где критичен объём памяти: 70B-модель в FP16 на одной карте. Совместимость с vLLM и SGLang через ROCm.
Сравнение GPU для LLM inference
| GPU | VRAM | Bandwidth | FP16 TFLOPS | Тип | Для каких моделей |
|---|---|---|---|---|---|
| B200 | 192 GB HBM3e | 8 TB/s | ~4500 (FP8) | Datacenter SXM | 70B - 405B, high concurrency |
| H200 | 141 GB HBM3e | 4.8 TB/s | ~990 | Datacenter SXM | 70B в FP8, RAG, multi-user |
| H100 | 80 GB HBM3 | 3.35 TB/s | ~990 | Datacenter SXM/PCIe | 32B - 70B (квантованные) |
| MI355X | 288 GB HBM3e | 8 TB/s | ~2300 (FP8) | Datacenter OAM | 70B в FP16, max memory |
| RTX PRO 6000 Svr | 96 GB GDDR7 | 1597 GB/s | ~250 (FP16) | Server PCIe | 32B - 70B Q4, малый production |
| L40S | 48 GB GDDR6 | 864 GB/s | ~360 | Datacenter PCIe | 7B - 13B, high concurrency |
Главная ошибка: покупать GPU, а не систему
LLM ограничивает не только вычисление. Критичны: память под веса + KV-cache, скорость доставки данных (NVMe vs SATA - минуты vs секунды на загрузке 70B), пропускная способность между картами (NVLink vs PCIe), CPU, который не должен быть узким горлом. Формула VRAM: (параметры × байт на параметр) + KV-cache (2 × слои × головы × размер головы × контекст × точность). Игнорирование KV-cache - причина №2, почему модель «влезает в карту, но падает под нагрузкой».
Хост, память, storage и софт-стек
CPU и платформа
AMD EPYC 9005 (до 192 ядер) - стандарт для AI-хостов. Много PCIe-линий: для 4 - 8 GPU нужно 64 - 128 линий. Threadripper WRX90 для workstation.
RAM и NVMe
RAM: 64 - 256 GB для spill-over и кэша. NVMe: минимум 2 TB под веса, индексы и логи. Разница SATA vs NVMe на загрузке модели - минуты против секунд.
NVLink и сеть
NVLink 5: 1.8 TB/s на GPU. Без NVLink - PCIe Gen5 ×16 (64 GB/s) - узкое горло при tensor parallelism. Сеть: 100 - 400 Gb/s для multi-node.
Inference stack
vLLM: tensor parallelism одним флагом, continuous batching, FP8. SGLang: RadixAttention для общих префиксов. TensorRT-LLM: максимальная оптимизация под NVIDIA.
Квантование
FP16: ×2 байта на параметр. FP8: ×1. Q8: ×1. Q4: ×0.5. 70B-модель: FP16 = 140 GB, FP8 = 70 GB, Q4 = 35 GB. KV-cache - отдельно, легко съедает 20 - 40 GB.
Мониторинг
Prometheus + Grafana. VRAM utilisation, GPU temperature, throughput (tok/s), TTFT, queue depth. Без метрик - слепой полёт. vLLM и SGLang отдают метрики нативно.
Практические рекомендации и что не покупать
Наши рекомендации по уровням
- Пилот, R&D, 1 - 2 сценария: RTX PRO 6000 Blackwell 96 GB (Workstation Edition). Быстрый старт, 70B в Q4, без datacenter-инфраструктуры.
- Малая команда, production-ассистент: RTX PRO 6000 Server Edition или H200. MIG для изоляции, ECC, серверная гарантия.
- Многопользовательская нагрузка, большие модели: DGX B200 / B300. 8× GPU с NVLink, 1440+ GB суммарно.
- AI-factory, trillion-parameter: GB200 NVL72. Liquid-cooled rack-scale.
- Открытый стек, максимальный объём памяти: AMD MI355X. 288 GB HBM3e на карту - лучший показатель на рынке.
Если ваш кейс ещё не дорос до rack-scale - не покупайте rack-scale. Правильный выбор начинается с честного профиля нагрузки.
Что не покупать
- Систему, где GPU мощная, а CPU, RAM и NVMe откровенно слабые.
- Production на случайных consumer-картах без ECC и серверной гарантии.
- Железо с расчётом на экономию охлаждения и блоков питания.
- Сервер без учёта того, что RAG и agentic workflows создают допнагрузку на память, storage и сеть.
- Железо «с запасом на будущее», если вы ещё не знаете, какая модель и concurrency у вас реально будет.
Софт решает
Даже лучшая GPU без правильного inference stack - просто дорогой нагреватель. vLLM для быстрого serving, SGLang для сценариев с общими префиксами (RAG), TensorRT-LLM для максимальной утилизации NVIDIA. Правильный софт может дать 2 - 3× прирост throughput на том же железе.
Подберём конфигурацию под вашу нагрузку
Мы не продаём железо. Мы считаем: модель, пользователи, контекст, RAG, агенты, latency. И под это подбираем GPU, хост, storage и inference stack - без переплаты и без компромиссов по памяти.