Адаптация российских LLM
Запрет иностранного ПО в госсекторе, 152-ФЗ, ФСТЭК, КИИ - выбор LLM стал стратегическим решением. GigaChat Ultra с открытыми весами, YandexGPT 5 Lite, Qwen 3.6 - fine-tuning, дообучение, on-premise развёртывание под ваши данные и требования.
- 152-ФЗ, ФСТЭК, ФСБ, КИИ, реестр Минцифры
- GigaChat Ultra 702B, Qwen 3.6, YandexGPT 5 Lite
- LoRA, QLoRA, SFT, DPO - дообучение под домен
- On-premise, air-gap, сертифицированный ЦОД
Российские LLM в 2026 году
Что доступно для enterprise и on-premise
GigaChat Ultra (702B MoE)
Sber, MIT license. GigaChat 3 Ultra Preview - 702B total / 36B active (MLA, MTP). GigaChat 3.1 Lightning - 10B MoE / 1.8B active, 8054 tok/s на одном H100. Open weights on HuggingFace, fine-tuning разрешён. GigaChat 2 Max - 128K контекст, мультимодальность (текст, изображения, аудио, видео). API: 65₽/1M токенов (Lite), 650₽ (Max).
YandexGPT 5.1 Pro / Lite
Pro - флагман, OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG, интеграция с Яндекс 360. Lite - open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Pro on-premise недоступен - только через Yandex Cloud. Lite on-premise - да, но качество существенно ниже Pro.
Qwen 3.5 / 3.6 (Alibaba)
Qwen 3.5 - 397B MoE / 17B active, Apache 2.0. Qwen 3.6 - сильная мультиязычность, включая русский. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). vLLM, SGLang for inference. Open-source, self-hosted, полная независимость от вендора. Лучшее соотношение цена/качество для on-premise.
MTS AI / MWS GPT
Облачная B2B-платформа с агрегатором моделей. Единая точка входа для собственных и open-source LLM. Function calling, дообучение, интеграция с Audiogram для речевой аналитики. Транскрипция звонков и совещаний с суммаризацией. Крупный бизнес на инфраструктуре МТС.
ruGPT / T-lite
ruGPT (Сбербанк) - encoder-decoder модель, fine-tuned на русском. T-lite (Т-Банк) - адаптированная для финтеха. Saiga - российская дообученная LLaMa. Все включены в Единый реестр российского ПО Минцифры. Подходят для сертифицированных on-premise развёртываний.
Open-source + Russian adaptation
Qwen3 (14B - 235B), DeepSeek V3, Llama 3.1 (8B - 70B) - с Russian-adapted weights (RuadaptQwen2.5-32B, T-pro-it-1.0, Zero-Mistral-Small-24B). По данным аналитиков, open-source в среднем в 40 раз дешевле проприетарных на уровне стоимости токена - но компенсируется затратами на инфраструктуру и MLOps-команду.
Как мы адаптируем LLM под ваш бизнес
-
01
Аудит требований и регуляторики
Определяем уровень безопасности: Level 1 (гостайна, банки, КИИ) → сертифицированный ЦОД, air-gap, СКЗИ КС1-КС2. Level 2 (персональные данные, коммерческая тайна) → on-premise, шифрование, аудит. Level 3 (внутренние бизнес-процессы) → облако или hybrid. Анализируем применимые нормативы: 152-ФЗ, ФСТЭК №21, приказ ФСБ, отраслевые требования (Положение ЦБ 683-П для банков).
-
02
Выбор модели и стратегии адаптации
Выбираем базовую модель: GigaChat Ultra (если нужны открытые веса и российская модель), Qwen 3.5/3.6 (лучшее соотношение цена/качество), YandexGPT Lite (если экосистема Яндекса). Выбираем стратегию: Continued Pretraining (CPT) - если corpusdomain специфичный; SFT - если нужен style/tone; LoRA/QLoRA PEFT - для cost-efficient fine-tuning; DPO - для alignment и снижения галлюцинаций.
-
03
Подготовка данных и fine-tuning
Собираем и структурируем domain corpus: техническая документация, регламенты, договоры, переписка, базы знаний. Data cleaning, deduplication, quality scoring. Fine-tuning через LoRA/QLoRA (для экономии GPU resources) или full fine-tuning (для максимальной адаптации). QLoRA на 4-bit quantization - для 70B модели достаточно ~40GB VRAM на GPU. Training: 3-10 epochs, lr=1e-4 to 5e-5. DPO alignment на preference data для снижения галлюцинаций.
-
04
On-premise развёртывание
vLLM / SGLang / Ollama для инференса. Qdrant/Milvus для RAG. LangChain/LlamaIndex для orchestration. GPU requirements: 70B model → 2-4x A100/H100 или 8x A10G. MoE модели (GigaChat 3 Ultra: 702B total, 36B active) - экономия compute за счёт sparse activation. MLA (Multi-head Latent Attention) - compression KV cache, reduced memory footprint. Monitoring: Prometheus + Grafana, latency, throughput, cost per query.
-
05
Валидация и мониторинг
Eval set: 200-500 domain-specific questions с ground-truth answers. Metrics: accuracy, hallucination rate, response latency, token cost. Continuous monitoring: drift detection, performance degradation alerts. A/B testing: fine-tuned vs baseline. Feedback loop: user ratings → preference data → DPO retraining. Regular retraining cadence: monthly or quarterly.
Сравнение подходов к адаптации LLM
CPT, SFT, LoRA, DPO - что и когда применять
| Метод | Что делает | Когда применять | Cost |
|---|---|---|---|
| CPT (Continued Pretraining) | Добавляем knowledge на corpus из domain texts | Domain corpus большой (100M+ tokens), специфичная terminologia | Высокий: GPU days, 100M tokens на A100 ≈ 2-4 дня |
| SFT (Supervised Fine-Tuning) | Учим model style и response format на labeled examples | Нужен конкретный tone, формат ответов, структура | Средний: 10K-50K examples, A100 ≈ 1-2 дня |
| LoRA / QLoRA (PEFT) | Адаптируем model с минимальными trainable parameters | Cost-sensitive fine-tuning, 70B+ модели, limited GPU | Низкий: 0.1-1% trainable params, 4-bit QLoRA ≈ 40GB VRAM |
| DPO (Direct Preference Optimization) | Align model по human preferences, снижаем галлюцинации | Нужен controlled output, compliance, safety-critical | Средний: 5K-20K preference pairs, A100 ≈ 1 день |
Типичные ошибки при адаптации российских LLM
1. Выбор модели без пилотного тестирования на ваших данных. «Превосходит GPT-4.1 в 56% случаев» - результат на конкретной выборке, а не на ваших договорах. 2. Open-source Lite vs proprietary Pro. YandexGPT Lite open-source существенно уступает Pro по качеству. GigaChat open weights - да, но 702B MoE требует кластера GPU. 3. Игнорирование MLOps-инфраструктуры. Без vLLM, мониторинга, CI/CD для моделей - fine-tuned модель деградирует через месяц. 4. Отсутствие eval set. Нет domain-specific вопросов с ground-truth - нет метрик, нет контроля качества.
Инфраструктура для on-premise LLM
От GPU до мониторинга
GPU Hardware
A100 80GB (4-8 шт) - стандарт для 70B models. H100 - для high-throughput production. A10G (8 шт) - cost-effective для MoE models (GigaChat Lightning 10B, Qwen 3.5 9B). FP8 quantization (GigaChat 3.1 Lightning: 8054 tok/s на одном H100). MLA compression - 40-60% memory savings for KV cache.
Inference Engine
vLLM - production standard, PagedAttention, continuous batching. SGLang - alternative with radical reasoning efficiency. Ollama - для development и smaller models. Triton Inference Server - для GPU serving at scale. Все open-source, self-hosted, no vendor lock-in.
Vector DB + RAG
Qdrant - Rust-based, high-performance, Python/Go/TS clients. Milvus - Zilliz, cloud-native, scalable. Both support hybrid search (dense + sparse). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.
Orchestration
LangChain - most popular, broadest integrations. LlamaIndex - best for RAG-specific workflows. LangGraph - agentic patterns with stateful multi-step reasoning. GigaChain - Russian-specific wrapper for GigaChat + LangChain compatibility. All self-hosted.
Monitoring
Prometheus + Grafana - latency, throughput, error rates, cost per query. RAGAS - faithfulness, answer relevancy, context precision/recall. Phoenix (Arize AI) - trace and analyze LLM calls. LangSmith - for LangChain-specific observability.
Security & Compliance
Air-gap deployment - no internet connectivity. СКЗИ из реестра ФСТЭК. RBAC + audit logging. Data encryption at rest and in transit. FSTEC Level 2-3 compliance. 152-ФЗ: PДн processing on Russian territory. Registry of Russian software (Минцифры).
Техническая глубина адаптации российских LLM
Почему российские LLM для бизнеса - не просто «ChatGPT без VPN»
Выбор LLM для российских компаний в 2026 году - это не техническая задача, а стратегическое решение. Санкционное давление, требования 152-ФЗ о локализации персональных данных, запрет иностранного ПО в госсекторе (Указ № 250), требования ФСТЭК и ФСБ - всё это превратило выбор модели из технического решения в вопрос compliance.
Но за регуляторикой стоит реальная техническая проблема: как получить качество, сопоставимое с западными моделями, при работе с русскоязычными данными, в закрытом контуре, без телеметрии и без зависимости от иностранных облаков.
Пейзаж российских LLM в 2026
GigaChat - зрелая платформа от Сбера. Линейка 2-го поколения (Lite, Pro, Max) с контекстом 128K токенов. Мультимодальность «из коробки»: текст, изображения (Kandinsky), аудио, видео, веб-поиск. Ключевое преимущество: открытые веса GigaChat Ultra (702B MoE, MIT license) для развёртывания в закрытом контуре. GigaChat 3 Ultra Preview - флагманская instruct-модель с MLA (Multi-head Latent Attention) и MTP (Multi-Token Prediction). GigaChat 3.1 Lightning - 10B MoE / 1.8B active, 8054 tok/s на одном H100, FP8 quantization. API: от 65₽/1M токенов (Lite) до 650₽ (Max).
YandexGPT 5.1 Pro - флагман для русского языка. OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG-пайплайнов, интеграция с Яндекс 360. Lite - open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Минус: Pro on-premise недоступна - только через Yandex Cloud. Lite on-premise - да, но качество существенно ниже Pro.
Qwen 3.5/3.6 - китайские open-source модели с сильной мультиязычностью. Qwen 3.5: 397B MoE / 17B active, Apache 2.0. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). Лучшее соотношение цена/качество для self-hosted деплоя. Russian-adapted variants: RuadaptQwen2.5-32B-Instruct.
ruGPT / T-lite / Saiga - российские модели с дообучением на русскоязычных данных. Включены в Единый реестр российского ПО Минцифры. Saiga - дообученная LLaMa. Подходят для сертифицированных on-premise развёртываний.
Стратегии адаптации: CPT, SFT, LoRA, DPO
Continued Pretraining (CPT) - дообучаем модель на domain corpus из 100M+ токенов. Применяем, когда corpus специфичный (техническая документация, юриспруденция, медицина). Модель учится новой терминологии и стилю. Cost: GPU days, 100M tokens на A100 ≈ 2-4 дня.
Supervised Fine-Tuning (SFT) - учим model style и response format на labeled examples (10K-50K examples). Применяем, когда нужен конкретный tone, формат ответов, структура. Cost: A100 ≈ 1-2 дня.
LoRA / QLoRA (PEFT) - Parameter-Efficient Fine-Tuning. Адаптируем модель с минимальными trainable parameters (0.1-1% от total). QLoRA на 4-bit quantization: для 70B модели достаточно ~40GB VRAM. Применяем для cost-efficient fine-tuning. Cost: 4-bit QLoRA ≈ 40GB VRAM на GPU.
DPO (Direct Preference Optimization) - align model по human preferences. Снижаем галлюцинации, improving compliance. 5K-20K preference pairs. Применяем для safety-critical задач. Cost: A100 ≈ 1 день.
На практике мы комбинируем: CPT → SFT → LoRA → DPO. Каждый этап - отдельный checkpoint, отдельная eval.
On-premise инфраструктура
GPU requirements:
- 70B dense model → 4x A100 80GB (BF16) или 8x A10G (quantized)
- 702B MoE (GigaChat Ultra) → 8x A100/H100 для full model, но active params только 36B
- 10B MoE (GigaChat Lightning) → 1x H100 для production throughput
- 9B-35B (Qwen 3.5) → 1-2x A10G для development, 4x A10G для production
Inference: vLLM (production standard, PagedAttention, continuous batching), SGLang (alternativa с radical reasoning efficiency), Ollama (для development и smaller models).
RAG: Qdrant (Rust-based, high-performance) или Milvus (cloud-native). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.
Monitoring: Prometheus + Grafana (latency, throughput, cost per query), RAGAS (faithfulness ≥ 0.85, context recall ≥ 0.75), Phoenix (Arize AI) для tracing.
Когда адаптация российских LLM не нужна
Если ваша организация работает с публичными данными, не подпадает под 152-ФЗ/ФСТЭК/КИИ, и использует западные облачные LLM без проблем - возможно, адаптация не нужна. Cloud API (ChatGPT, Claude) решает 80% задач без инфраструктуры.
Адаптация российских LLM оправдана, когда:
- Регуляторные требования: 152-ФЗ, ФСТЭК, ФСБ, КИИ, гостайна
- Данные не покидают периметр: on-premise, air-gap
- Зависимость от иностранных облаков - стратегический риск
- Нужен контроль над качеством: fine-tuning под конкретный домен
- Cost optimization: open-source дешевле API на масштабе (в 40 раз по стоимости токена)