Адаптация российских LLM
Запрет иностранного ПО в госсекторе, 152-ФЗ, ФСТЭК, КИИ — выбор LLM стал стратегическим решением. GigaChat Ultra с открытыми весами, YandexGPT 5 Lite, Qwen 3.6 — fine-tuning, дообучение, on-premise развёртывание под ваши данные и требования.
- 152-ФЗ, ФСТЭК, ФСБ, КИИ, реестр Минцифры
- GigaChat Ultra 702B, Qwen 3.6, YandexGPT 5 Lite
- LoRA, QLoRA, SFT, DPO — дообучение под домен
- On-premise, air-gap, сертифицированный ЦОД
Российские LLM в 2026 году
Что доступно для enterprise и on-premise
GigaChat Ultra (702B MoE)
Sber, MIT license. GigaChat 3 Ultra Preview — 702B total / 36B active (MLA, MTP). GigaChat 3.1 Lightning — 10B MoE / 1.8B active, 8054 tok/s на одном H100. Open weights on HuggingFace, fine-tuning разрешён. GigaChat 2 Max — 128K контекст, мультимодальность (текст, изображения, аудио, видео). API: 65₽/1M токенов (Lite), 650₽ (Max).
YandexGPT 5.1 Pro / Lite
Pro — флагман, OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG, интеграция с Яндекс 360. Lite — open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Pro on-premise недоступен — только через Yandex Cloud. Lite on-premise — да, но качество существенно ниже Pro.
Qwen 3.5 / 3.6 (Alibaba)
Qwen 3.5 — 397B MoE / 17B active, Apache 2.0. Qwen 3.6 — сильная мультиязычность, включая русский. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). vLLM, SGLang for inference. Open-source, self-hosted, полная независимость от вендора. Лучшее соотношение цена/качество для on-premise.
MTS AI / MWS GPT
Облачная B2B-платформа с агрегатором моделей. Единая точка входа для собственных и open-source LLM. Function calling, дообучение, интеграция с Audiogram для речевой аналитики. Транскрипция звонков и совещаний с суммаризацией. Крупный бизнес на инфраструктуре МТС.
ruGPT / T-lite
ruGPT (Сбербанк) — encoder-decoder модель, fine-tuned на русском. T-lite (Т-Банк) — адаптированная для финтеха. Saiga — российская дообученная LLaMa. Все включены в Единый реестр российского ПО Минцифры. Подходят для сертифицированных on-premise развёртываний.
Open-source + Russian adaptation
Qwen3 (14B–235B), DeepSeek V3, Llama 3.1 (8B–70B) — с Russian-adapted weights (RuadaptQwen2.5-32B, T-pro-it-1.0, Zero-Mistral-Small-24B). По данным аналитиков, open-source в среднем в 40 раз дешевле проприетарных на уровне стоимости токена — но компенсируется затратами на инфраструктуру и MLOps-команду.
Как мы адаптируем LLM под ваш бизнес
-
01
Аудит требований и регуляторики
Определяем уровень безопасности: Level 1 (гостайна, банки, КИИ) → сертифицированный ЦОД, air-gap, СКЗИ КС1-КС2. Level 2 (персональные данные, коммерческая тайна) → on-premise, шифрование, аудит. Level 3 (внутренние бизнес-процессы) → облако или hybrid. Анализируем применимые нормативы: 152-ФЗ, ФСТЭК №21, приказ ФСБ, отраслевые требования (Положение ЦБ 683-П для банков).
-
02
Выбор модели и стратегии адаптации
Выбираем базовую модель: GigaChat Ultra (если нужны открытые веса и российская модель), Qwen 3.5/3.6 (лучшее соотношение цена/качество), YandexGPT Lite (если экосистема Яндекса). Выбираем стратегию: Continued Pretraining (CPT) — если corpusdomain специфичный; SFT — если нужен style/tone; LoRA/QLoRA PEFT — для cost-efficient fine-tuning; DPO — для alignment и снижения галлюцинаций.
-
03
Подготовка данных и fine-tuning
Собираем и структурируем domain corpus: техническая документация, регламенты, договоры, переписка, базы знаний. Data cleaning, deduplication, quality scoring. Fine-tuning через LoRA/QLoRA (для экономии GPU resources) или full fine-tuning (для максимальной адаптации). QLoRA на 4-bit quantization — для 70B модели достаточно ~40GB VRAM на GPU. Training: 3-10 epochs, lr=1e-4 to 5e-5. DPO alignment на preference data для снижения галлюцинаций.
-
04
On-premise развёртывание
vLLM / SGLang / Ollama для инференса. Qdrant/Milvus для RAG. LangChain/LlamaIndex для orchestration. GPU requirements: 70B model → 2-4x A100/H100 или 8x A10G. MoE модели (GigaChat 3 Ultra: 702B total, 36B active) — экономия compute за счёт sparse activation. MLA (Multi-head Latent Attention) — compression KV cache, reduced memory footprint. Monitoring: Prometheus + Grafana, latency, throughput, cost per query.
-
05
Валидация и мониторинг
Eval set: 200-500 domain-specific questions с ground-truth answers. Metrics: accuracy, hallucination rate, response latency, token cost. Continuous monitoring: drift detection, performance degradation alerts. A/B testing: fine-tuned vs baseline. Feedback loop: user ratings → preference data → DPO retraining. Regular retraining cadence: monthly or quarterly.
Сравнение подходов к адаптации LLM
CPT, SFT, LoRA, DPO — что и когда применять
| Метод | Что делает | Когда применять | Cost |
|---|---|---|---|
| CPT (Continued Pretraining) | Добавляем knowledge на corpus из domain texts | Domain corpus большой (100M+ tokens), специфичная terminologia | Высокий: GPU days, 100M tokens на A100 ≈ 2-4 дня |
| SFT (Supervised Fine-Tuning) | Учим model style и response format на labeled examples | Нужен конкретный tone, формат ответов, структура | Средний: 10K-50K examples, A100 ≈ 1-2 дня |
| LoRA / QLoRA (PEFT) | Адаптируем model с минимальными trainable parameters | Cost-sensitive fine-tuning, 70B+ модели, limited GPU | Низкий: 0.1-1% trainable params, 4-bit QLoRA ≈ 40GB VRAM |
| DPO (Direct Preference Optimization) | Align model по human preferences, снижаем галлюцинации | Нужен controlled output, compliance, safety-critical | Средний: 5K-20K preference pairs, A100 ≈ 1 день |
Типичные ошибки при адаптации российских LLM
1. Выбор модели без пилотного тестирования на ваших данных. «Превосходит GPT-4.1 в 56% случаев» — результат на конкретной выборке, а не на ваших договорах. 2. Open-source Lite vs proprietary Pro. YandexGPT Lite open-source существенно уступает Pro по качеству. GigaChat open weights — да, но 702B MoE требует кластера GPU. 3. Игнорирование MLOps-инфраструктуры. Без vLLM, мониторинга, CI/CD для моделей — fine-tuned модель деградирует через месяц. 4. Отсутствие eval set. Нет domain-specific вопросов с ground-truth — нет метрик, нет контроля качества.
Инфраструктура для on-premise LLM
От GPU до мониторинга
GPU Hardware
A100 80GB (4-8 шт) — стандарт для 70B models. H100 — для high-throughput production. A10G (8 шт) — cost-effective для MoE models (GigaChat Lightning 10B, Qwen 3.5 9B). FP8 quantization (GigaChat 3.1 Lightning: 8054 tok/s на одном H100). MLA compression — 40-60% memory savings for KV cache.
Inference Engine
vLLM — production standard, PagedAttention, continuous batching. SGLang — alternative with radical reasoning efficiency. Ollama — для development и smaller models. Triton Inference Server — для GPU serving at scale. Все open-source, self-hosted, no vendor lock-in.
Vector DB + RAG
Qdrant — Rust-based, high-performance, Python/Go/TS clients. Milvus — Zilliz, cloud-native, scalable. Both support hybrid search (dense + sparse). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.
Orchestration
LangChain — most popular, broadest integrations. LlamaIndex — best for RAG-specific workflows. LangGraph — agentic patterns with stateful multi-step reasoning. GigaChain — Russian-specific wrapper for GigaChat + LangChain compatibility. All self-hosted.
Monitoring
Prometheus + Grafana — latency, throughput, error rates, cost per query. RAGAS — faithfulness, answer relevancy, context precision/recall. Phoenix (Arize AI) — trace and analyze LLM calls. LangSmith — for LangChain-specific observability.
Security & Compliance
Air-gap deployment — no internet connectivity. СКЗИ из реестра ФСТЭК. RBAC + audit logging. Data encryption at rest and in transit. FSTEC Level 2-3 compliance. 152-ФЗ: PДн processing on Russian territory. Registry of Russian software (Минцифры).
Техническая глубина адаптации российских LLM
Почему российские LLM для бизнеса — не просто «ChatGPT без VPN»
Выбор LLM для российских компаний в 2026 году — это не техническая задача, а стратегическое решение. Санкционное давление, требования 152-ФЗ о локализации персональных данных, запрет иностранного ПО в госсекторе (Указ № 250), требования ФСТЭК и ФСБ — всё это превратило выбор модели из технического решения в вопрос compliance.
Но за регуляторикой стоит реальная техническая проблема: как получить качество, сопоставимое с западными моделями, при работе с русскоязычными данными, в закрытом контуре, без телеметрии и без зависимости от иностранных облаков.
Пейзаж российских LLM в 2026
GigaChat — зрелая платформа от Сбера. Линейка 2-го поколения (Lite, Pro, Max) с контекстом 128K токенов. Мультимодальность «из коробки»: текст, изображения (Kandinsky), аудио, видео, веб-поиск. Ключевое преимущество: открытые веса GigaChat Ultra (702B MoE, MIT license) для развёртывания в закрытом контуре. GigaChat 3 Ultra Preview — флагманская instruct-модель с MLA (Multi-head Latent Attention) и MTP (Multi-Token Prediction). GigaChat 3.1 Lightning — 10B MoE / 1.8B active, 8054 tok/s на одном H100, FP8 quantization. API: от 65₽/1M токенов (Lite) до 650₽ (Max).
YandexGPT 5.1 Pro — флагман для русского языка. OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG-пайплайнов, интеграция с Яндекс 360. Lite — open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Минус: Pro on-premise недоступна — только через Yandex Cloud. Lite on-premise — да, но качество существенно ниже Pro.
Qwen 3.5/3.6 — китайские open-source модели с сильной мультиязычностью. Qwen 3.5: 397B MoE / 17B active, Apache 2.0. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). Лучшее соотношение цена/качество для self-hosted деплоя. Russian-adapted variants: RuadaptQwen2.5-32B-Instruct.
ruGPT / T-lite / Saiga — российские модели с дообучением на русскоязычных данных. Включены в Единый реестр российского ПО Минцифры. Saiga — дообученная LLaMa. Подходят для сертифицированных on-premise развёртываний.
Стратегии адаптации: CPT, SFT, LoRA, DPO
Continued Pretraining (CPT) — дообучаем модель на domain corpus из 100M+ токенов. Применяем, когда corpus специфичный (техническая документация, юриспруденция, медицина). Модель учится новой терминологии и стилю. Cost: GPU days, 100M tokens на A100 ≈ 2-4 дня.
Supervised Fine-Tuning (SFT) — учим model style и response format на labeled examples (10K-50K examples). Применяем, когда нужен конкретный tone, формат ответов, структура. Cost: A100 ≈ 1-2 дня.
LoRA / QLoRA (PEFT) — Parameter-Efficient Fine-Tuning. Адаптируем модель с минимальными trainable parameters (0.1-1% от total). QLoRA на 4-bit quantization: для 70B модели достаточно ~40GB VRAM. Применяем для cost-efficient fine-tuning. Cost: 4-bit QLoRA ≈ 40GB VRAM на GPU.
DPO (Direct Preference Optimization) — align model по human preferences. Снижаем галлюцинации, improving compliance. 5K-20K preference pairs. Применяем для safety-critical задач. Cost: A100 ≈ 1 день.
На практике мы комбинируем: CPT → SFT → LoRA → DPO. Каждый этап — отдельный checkpoint, отдельная eval.
On-premise инфраструктура
GPU requirements:
- 70B dense model → 4x A100 80GB (BF16) или 8x A10G (quantized)
- 702B MoE (GigaChat Ultra) → 8x A100/H100 для full model, но active params только 36B
- 10B MoE (GigaChat Lightning) → 1x H100 для production throughput
- 9B-35B (Qwen 3.5) → 1-2x A10G для development, 4x A10G для production
Inference: vLLM (production standard, PagedAttention, continuous batching), SGLang (alternativa с radical reasoning efficiency), Ollama (для development и smaller models).
RAG: Qdrant (Rust-based, high-performance) или Milvus (cloud-native). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.
Monitoring: Prometheus + Grafana (latency, throughput, cost per query), RAGAS (faithfulness ≥ 0.85, context recall ≥ 0.75), Phoenix (Arize AI) для tracing.
Когда адаптация российских LLM не нужна
Если ваша организация работает с публичными данными, не подпадает под 152-ФЗ/ФСТЭК/КИИ, и использует западные облачные LLM без проблем — возможно, адаптация не нужна. Cloud API (ChatGPT, Claude) решает 80% задач без инфраструктуры.
Адаптация российских LLM оправдана, когда:
- Регуляторные требования: 152-ФЗ, ФСТЭК, ФСБ, КИИ, гостайна
- Данные не покидают периметр: on-premise, air-gap
- Зависимость от иностранных облаков — стратегический риск
- Нужен контроль над качеством: fine-tuning под конкретный домен
- Cost optimization: open-source дешевле API на масштабе (в 40 раз по стоимости токена)