Инфраструктура
11 апреля 2026 · 11 мин чтения · AI Platforms

Железо под локальную LLM в 2026: как выбрать конфигурацию под свою нагрузку

Разбор международного enterprise-рынка: Blackwell B200/B300, H200, MI355X, RTX PRO 6000, DGX и GB200 NVL72. От рабочей станции за $10K до rack-scale за $500K+. vLLM tensor parallelism, VRAM-калькулятор, NVLink, NVMe и софт-стек.

  • GPU
  • hardware
  • infra
  • local LLM
  • Blackwell
  • Hopper
  • server
  • vLLM
  • DGX

Что изменилось в 2026

Если раньше локальную LLM выбирали по принципу «лишь бы влезло в GPU», то в 2026 году картина стала жёстче и честнее. Для production-нагрузки важны не только TFLOPS, но и объём памяти, bandwidth, интерконнект между GPU, качество CPU-хоста, NVMe-слой и inference stack.

Три архитектуры NVIDIA активны одновременно: Hopper (H100/H200) - зрелые и доступные, Blackwell (B200/B300) - рампятся с падающими ценами, Rubin (R100) - вторая половина 2026. Плюс AMD с MI300X/MI355X и открытым ROCm стеком.

Хороший AI-сервер сегодня - это не мощная видеокарта в корпусе. Это сбалансированная система: память под веса и KV-cache, скорость доставки данных, пропускная способность между картами, CPU не должен быть узким горлом.

Пять вопросов перед выбором железа: какая модель будет основной (7B, 32B, 70B, 405B+)? Только инференс или ещё дообучение? Сколько одновременных пользователей? Какой нужен контекст (короткий чат или 128K+ RAG)? Один сервер, несколько узлов или rack-scale?

Эта статья - про международный enterprise-рынок. Для российских реалий и consumer GPU - отдельный материал.

Уровни: от пилота до rack-scale

Уровень 1: Рабочая станция

RTX PRO 6000 Blackwell - 96 GB GDDR7. Workstation (1792 GB/s) для R&D, Server (1597 GB/s, MIG до 4 инстансов) для малых production. $8 - 12K за карту.

Уровень 2: Сервер на команду

RTX PRO 6000 Server Edition ×1 - 2, или H200 (141 GB HBM3e, 4.8 TB/s). 2 - 10 пользователей, RAG, агенты. NVMe, 64 - 128 GB RAM, EPYC 9005.

Уровень 3: Multi-GPU

H200 ×4 - 8, B200 ×8. NVLink 5: 1.8 TB/s на GPU. Tensor parallelism через vLLM/SGLang. Модели 70B - 405B без агрессивного квантования.

Уровень 4: DGX

DGX B200: 8× Blackwell, 1440 GB суммарно, 14.4 TB/s NVLink, 400 Gb/s сеть. DGX B300: 2.1 TB GPU-памяти, до 800 Gb/s. ~$250 - 550K.

Уровень 5: Rack-scale

GB200 NVL72: 36 Grace CPU + 72 Blackwell GPU, liquid-cooled. 30× быстрее trillion-parameter inference. AI-factory класс.

Альтернатива: AMD

Instinct MI355X: 288 GB HBM3e, 8 TB/s. Открытый ROCm стек. Для тех, кому важен максимальный объём памяти и отсутствие vendor lock-in.

GPU детально: Blackwell, Hopper и AMD

Blackwell (B200/B300)

Blackwell - флагман 2026: 208B транзисторов, два reticle-limited кристалла, соединённых 10 TB/s чип-к-чипу. B200: 192 GB HBM3e, до 20 PFLOPS FP4. Цена: $30 - 40K за GPU. NVLink 5: 1.8 TB/s на GPU. Ключевое преимущество - FP4 inference: 5× быстрее H100 на тех же задачах.

Hopper (H100/H200)

Зрелая платформа, широко доступна. H100: 80 GB HBM3, 3.35 TB/s. H200: 141 GB HBM3e, 4.8 TB/s - на 76% больше памяти и 43% быстрее bandwidth, чем H100. Для LLM inference H200 часто оптимален: помещается 70B-модель в FP8 без шардирования.

L40S

48 GB GDDR6, без HBM. Значительно дешевле H100. Для лёгких моделей (7B - 13B) и высокого concurrency - лучший cost-per-inference. Но для больших LLM памяти не хватает.

RTX PRO 6000 Blackwell

96 GB GDDR7. Две версии: Workstation (1792 GB/s, 600W) и Server (1597 GB/s, 600W, MIG, пассивное охлаждение). Server Edition поддерживает до 4 изолированных MIG-инстансов - можно раздать разным командам. Промежуточный класс между consumer и datacenter.

AMD Instinct MI355X

288 GB HBM3e, 8 TB/s bandwidth. Открытый ROCm 6.x стек. Для сценариев, где критичен объём памяти: 70B-модель в FP16 на одной карте. Совместимость с vLLM и SGLang через ROCm.

Сравнение GPU для LLM inference

GPUVRAMBandwidthFP16 TFLOPSТипДля каких моделей
B200 192 GB HBM3e 8 TB/s ~4500 (FP8) Datacenter SXM 70B - 405B, high concurrency
H200 141 GB HBM3e 4.8 TB/s ~990 Datacenter SXM 70B в FP8, RAG, multi-user
H100 80 GB HBM3 3.35 TB/s ~990 Datacenter SXM/PCIe 32B - 70B (квантованные)
MI355X 288 GB HBM3e 8 TB/s ~2300 (FP8) Datacenter OAM 70B в FP16, max memory
RTX PRO 6000 Svr 96 GB GDDR7 1597 GB/s ~250 (FP16) Server PCIe 32B - 70B Q4, малый production
L40S 48 GB GDDR6 864 GB/s ~360 Datacenter PCIe 7B - 13B, high concurrency

Главная ошибка: покупать GPU, а не систему

LLM ограничивает не только вычисление. Критичны: память под веса + KV-cache, скорость доставки данных (NVMe vs SATA - минуты vs секунды на загрузке 70B), пропускная способность между картами (NVLink vs PCIe), CPU, который не должен быть узким горлом. Формула VRAM: (параметры × байт на параметр) + KV-cache (2 × слои × головы × размер головы × контекст × точность). Игнорирование KV-cache - причина №2, почему модель «влезает в карту, но падает под нагрузкой».

Хост, память, storage и софт-стек

CPU и платформа

AMD EPYC 9005 (до 192 ядер) - стандарт для AI-хостов. Много PCIe-линий: для 4 - 8 GPU нужно 64 - 128 линий. Threadripper WRX90 для workstation.

RAM и NVMe

RAM: 64 - 256 GB для spill-over и кэша. NVMe: минимум 2 TB под веса, индексы и логи. Разница SATA vs NVMe на загрузке модели - минуты против секунд.

NVLink и сеть

NVLink 5: 1.8 TB/s на GPU. Без NVLink - PCIe Gen5 ×16 (64 GB/s) - узкое горло при tensor parallelism. Сеть: 100 - 400 Gb/s для multi-node.

Inference stack

vLLM: tensor parallelism одним флагом, continuous batching, FP8. SGLang: RadixAttention для общих префиксов. TensorRT-LLM: максимальная оптимизация под NVIDIA.

Квантование

FP16: ×2 байта на параметр. FP8: ×1. Q8: ×1. Q4: ×0.5. 70B-модель: FP16 = 140 GB, FP8 = 70 GB, Q4 = 35 GB. KV-cache - отдельно, легко съедает 20 - 40 GB.

Мониторинг

Prometheus + Grafana. VRAM utilisation, GPU temperature, throughput (tok/s), TTFT, queue depth. Без метрик - слепой полёт. vLLM и SGLang отдают метрики нативно.

Практические рекомендации и что не покупать

Наши рекомендации по уровням

  • Пилот, R&D, 1 - 2 сценария: RTX PRO 6000 Blackwell 96 GB (Workstation Edition). Быстрый старт, 70B в Q4, без datacenter-инфраструктуры.
  • Малая команда, production-ассистент: RTX PRO 6000 Server Edition или H200. MIG для изоляции, ECC, серверная гарантия.
  • Многопользовательская нагрузка, большие модели: DGX B200 / B300. 8× GPU с NVLink, 1440+ GB суммарно.
  • AI-factory, trillion-parameter: GB200 NVL72. Liquid-cooled rack-scale.
  • Открытый стек, максимальный объём памяти: AMD MI355X. 288 GB HBM3e на карту - лучший показатель на рынке.

Если ваш кейс ещё не дорос до rack-scale - не покупайте rack-scale. Правильный выбор начинается с честного профиля нагрузки.

Что не покупать

  • Систему, где GPU мощная, а CPU, RAM и NVMe откровенно слабые.
  • Production на случайных consumer-картах без ECC и серверной гарантии.
  • Железо с расчётом на экономию охлаждения и блоков питания.
  • Сервер без учёта того, что RAG и agentic workflows создают допнагрузку на память, storage и сеть.
  • Железо «с запасом на будущее», если вы ещё не знаете, какая модель и concurrency у вас реально будет.

Софт решает

Даже лучшая GPU без правильного inference stack - просто дорогой нагреватель. vLLM для быстрого serving, SGLang для сценариев с общими префиксами (RAG), TensorRT-LLM для максимальной утилизации NVIDIA. Правильный софт может дать 2 - 3× прирост throughput на том же железе.

Подберём конфигурацию под вашу нагрузку

Мы не продаём железо. Мы считаем: модель, пользователи, контекст, RAG, агенты, latency. И под это подбираем GPU, хост, storage и inference stack - без переплаты и без компромиссов по памяти.