Услуга

Адаптация российских LLM

Запрет иностранного ПО в госсекторе, 152-ФЗ, ФСТЭК, КИИ — выбор LLM стал стратегическим решением. GigaChat Ultra с открытыми весами, YandexGPT 5 Lite, Qwen 3.6 — fine-tuning, дообучение, on-premise развёртывание под ваши данные и требования.

  • 152-ФЗ, ФСТЭК, ФСБ, КИИ, реестр Минцифры
  • GigaChat Ultra 702B, Qwen 3.6, YandexGPT 5 Lite
  • LoRA, QLoRA, SFT, DPO — дообучение под домен
  • On-premise, air-gap, сертифицированный ЦОД

Российские LLM в 2026 году

Что доступно для enterprise и on-premise

GigaChat Ultra (702B MoE)

Sber, MIT license. GigaChat 3 Ultra Preview — 702B total / 36B active (MLA, MTP). GigaChat 3.1 Lightning — 10B MoE / 1.8B active, 8054 tok/s на одном H100. Open weights on HuggingFace, fine-tuning разрешён. GigaChat 2 Max — 128K контекст, мультимодальность (текст, изображения, аудио, видео). API: 65₽/1M токенов (Lite), 650₽ (Max).

YandexGPT 5.1 Pro / Lite

Pro — флагман, OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG, интеграция с Яндекс 360. Lite — open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Pro on-premise недоступен — только через Yandex Cloud. Lite on-premise — да, но качество существенно ниже Pro.

Qwen 3.5 / 3.6 (Alibaba)

Qwen 3.5 — 397B MoE / 17B active, Apache 2.0. Qwen 3.6 — сильная мультиязычность, включая русский. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). vLLM, SGLang for inference. Open-source, self-hosted, полная независимость от вендора. Лучшее соотношение цена/качество для on-premise.

MTS AI / MWS GPT

Облачная B2B-платформа с агрегатором моделей. Единая точка входа для собственных и open-source LLM. Function calling, дообучение, интеграция с Audiogram для речевой аналитики. Транскрипция звонков и совещаний с суммаризацией. Крупный бизнес на инфраструктуре МТС.

ruGPT / T-lite

ruGPT (Сбербанк) — encoder-decoder модель, fine-tuned на русском. T-lite (Т-Банк) — адаптированная для финтеха. Saiga — российская дообученная LLaMa. Все включены в Единый реестр российского ПО Минцифры. Подходят для сертифицированных on-premise развёртываний.

Open-source + Russian adaptation

Qwen3 (14B–235B), DeepSeek V3, Llama 3.1 (8B–70B) — с Russian-adapted weights (RuadaptQwen2.5-32B, T-pro-it-1.0, Zero-Mistral-Small-24B). По данным аналитиков, open-source в среднем в 40 раз дешевле проприетарных на уровне стоимости токена — но компенсируется затратами на инфраструктуру и MLOps-команду.

Как мы адаптируем LLM под ваш бизнес

  1. 01

    Аудит требований и регуляторики

    Определяем уровень безопасности: Level 1 (гостайна, банки, КИИ) → сертифицированный ЦОД, air-gap, СКЗИ КС1-КС2. Level 2 (персональные данные, коммерческая тайна) → on-premise, шифрование, аудит. Level 3 (внутренние бизнес-процессы) → облако или hybrid. Анализируем применимые нормативы: 152-ФЗ, ФСТЭК №21, приказ ФСБ, отраслевые требования (Положение ЦБ 683-П для банков).

  2. 02

    Выбор модели и стратегии адаптации

    Выбираем базовую модель: GigaChat Ultra (если нужны открытые веса и российская модель), Qwen 3.5/3.6 (лучшее соотношение цена/качество), YandexGPT Lite (если экосистема Яндекса). Выбираем стратегию: Continued Pretraining (CPT) — если corpusdomain специфичный; SFT — если нужен style/tone; LoRA/QLoRA PEFT — для cost-efficient fine-tuning; DPO — для alignment и снижения галлюцинаций.

  3. 03

    Подготовка данных и fine-tuning

    Собираем и структурируем domain corpus: техническая документация, регламенты, договоры, переписка, базы знаний. Data cleaning, deduplication, quality scoring. Fine-tuning через LoRA/QLoRA (для экономии GPU resources) или full fine-tuning (для максимальной адаптации). QLoRA на 4-bit quantization — для 70B модели достаточно ~40GB VRAM на GPU. Training: 3-10 epochs, lr=1e-4 to 5e-5. DPO alignment на preference data для снижения галлюцинаций.

  4. 04

    On-premise развёртывание

    vLLM / SGLang / Ollama для инференса. Qdrant/Milvus для RAG. LangChain/LlamaIndex для orchestration. GPU requirements: 70B model → 2-4x A100/H100 или 8x A10G. MoE модели (GigaChat 3 Ultra: 702B total, 36B active) — экономия compute за счёт sparse activation. MLA (Multi-head Latent Attention) — compression KV cache, reduced memory footprint. Monitoring: Prometheus + Grafana, latency, throughput, cost per query.

  5. 05

    Валидация и мониторинг

    Eval set: 200-500 domain-specific questions с ground-truth answers. Metrics: accuracy, hallucination rate, response latency, token cost. Continuous monitoring: drift detection, performance degradation alerts. A/B testing: fine-tuned vs baseline. Feedback loop: user ratings → preference data → DPO retraining. Regular retraining cadence: monthly or quarterly.

Сравнение подходов к адаптации LLM

CPT, SFT, LoRA, DPO — что и когда применять

МетодЧто делаетКогда применятьCost
CPT (Continued Pretraining) Добавляем knowledge на corpus из domain texts Domain corpus большой (100M+ tokens), специфичная terminologia Высокий: GPU days, 100M tokens на A100 ≈ 2-4 дня
SFT (Supervised Fine-Tuning) Учим model style и response format на labeled examples Нужен конкретный tone, формат ответов, структура Средний: 10K-50K examples, A100 ≈ 1-2 дня
LoRA / QLoRA (PEFT) Адаптируем model с минимальными trainable parameters Cost-sensitive fine-tuning, 70B+ модели, limited GPU Низкий: 0.1-1% trainable params, 4-bit QLoRA ≈ 40GB VRAM
DPO (Direct Preference Optimization) Align model по human preferences, снижаем галлюцинации Нужен controlled output, compliance, safety-critical Средний: 5K-20K preference pairs, A100 ≈ 1 день

Типичные ошибки при адаптации российских LLM

1. Выбор модели без пилотного тестирования на ваших данных. «Превосходит GPT-4.1 в 56% случаев» — результат на конкретной выборке, а не на ваших договорах. 2. Open-source Lite vs proprietary Pro. YandexGPT Lite open-source существенно уступает Pro по качеству. GigaChat open weights — да, но 702B MoE требует кластера GPU. 3. Игнорирование MLOps-инфраструктуры. Без vLLM, мониторинга, CI/CD для моделей — fine-tuned модель деградирует через месяц. 4. Отсутствие eval set. Нет domain-specific вопросов с ground-truth — нет метрик, нет контроля качества.

Инфраструктура для on-premise LLM

От GPU до мониторинга

GPU Hardware

A100 80GB (4-8 шт) — стандарт для 70B models. H100 — для high-throughput production. A10G (8 шт) — cost-effective для MoE models (GigaChat Lightning 10B, Qwen 3.5 9B). FP8 quantization (GigaChat 3.1 Lightning: 8054 tok/s на одном H100). MLA compression — 40-60% memory savings for KV cache.

Inference Engine

vLLM — production standard, PagedAttention, continuous batching. SGLang — alternative with radical reasoning efficiency. Ollama — для development и smaller models. Triton Inference Server — для GPU serving at scale. Все open-source, self-hosted, no vendor lock-in.

Vector DB + RAG

Qdrant — Rust-based, high-performance, Python/Go/TS clients. Milvus — Zilliz, cloud-native, scalable. Both support hybrid search (dense + sparse). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.

Orchestration

LangChain — most popular, broadest integrations. LlamaIndex — best for RAG-specific workflows. LangGraph — agentic patterns with stateful multi-step reasoning. GigaChain — Russian-specific wrapper for GigaChat + LangChain compatibility. All self-hosted.

Monitoring

Prometheus + Grafana — latency, throughput, error rates, cost per query. RAGAS — faithfulness, answer relevancy, context precision/recall. Phoenix (Arize AI) — trace and analyze LLM calls. LangSmith — for LangChain-specific observability.

Security & Compliance

Air-gap deployment — no internet connectivity. СКЗИ из реестра ФСТЭК. RBAC + audit logging. Data encryption at rest and in transit. FSTEC Level 2-3 compliance. 152-ФЗ: PДн processing on Russian territory. Registry of Russian software (Минцифры).

Техническая глубина адаптации российских LLM

Почему российские LLM для бизнеса — не просто «ChatGPT без VPN»

Выбор LLM для российских компаний в 2026 году — это не техническая задача, а стратегическое решение. Санкционное давление, требования 152-ФЗ о локализации персональных данных, запрет иностранного ПО в госсекторе (Указ № 250), требования ФСТЭК и ФСБ — всё это превратило выбор модели из технического решения в вопрос compliance.

Но за регуляторикой стоит реальная техническая проблема: как получить качество, сопоставимое с западными моделями, при работе с русскоязычными данными, в закрытом контуре, без телеметрии и без зависимости от иностранных облаков.

Пейзаж российских LLM в 2026

GigaChat — зрелая платформа от Сбера. Линейка 2-го поколения (Lite, Pro, Max) с контекстом 128K токенов. Мультимодальность «из коробки»: текст, изображения (Kandinsky), аудио, видео, веб-поиск. Ключевое преимущество: открытые веса GigaChat Ultra (702B MoE, MIT license) для развёртывания в закрытом контуре. GigaChat 3 Ultra Preview — флагманская instruct-модель с MLA (Multi-head Latent Attention) и MTP (Multi-Token Prediction). GigaChat 3.1 Lightning — 10B MoE / 1.8B active, 8054 tok/s на одном H100, FP8 quantization. API: от 65₽/1M токенов (Lite) до 650₽ (Max).

YandexGPT 5.1 Pro — флагман для русского языка. OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG-пайплайнов, интеграция с Яндекс 360. Lite — open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Минус: Pro on-premise недоступна — только через Yandex Cloud. Lite on-premise — да, но качество существенно ниже Pro.

Qwen 3.5/3.6 — китайские open-source модели с сильной мультиязычностью. Qwen 3.5: 397B MoE / 17B active, Apache 2.0. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). Лучшее соотношение цена/качество для self-hosted деплоя. Russian-adapted variants: RuadaptQwen2.5-32B-Instruct.

ruGPT / T-lite / Saiga — российские модели с дообучением на русскоязычных данных. Включены в Единый реестр российского ПО Минцифры. Saiga — дообученная LLaMa. Подходят для сертифицированных on-premise развёртываний.

Стратегии адаптации: CPT, SFT, LoRA, DPO

Continued Pretraining (CPT) — дообучаем модель на domain corpus из 100M+ токенов. Применяем, когда corpus специфичный (техническая документация, юриспруденция, медицина). Модель учится новой терминологии и стилю. Cost: GPU days, 100M tokens на A100 ≈ 2-4 дня.

Supervised Fine-Tuning (SFT) — учим model style и response format на labeled examples (10K-50K examples). Применяем, когда нужен конкретный tone, формат ответов, структура. Cost: A100 ≈ 1-2 дня.

LoRA / QLoRA (PEFT) — Parameter-Efficient Fine-Tuning. Адаптируем модель с минимальными trainable parameters (0.1-1% от total). QLoRA на 4-bit quantization: для 70B модели достаточно ~40GB VRAM. Применяем для cost-efficient fine-tuning. Cost: 4-bit QLoRA ≈ 40GB VRAM на GPU.

DPO (Direct Preference Optimization) — align model по human preferences. Снижаем галлюцинации, improving compliance. 5K-20K preference pairs. Применяем для safety-critical задач. Cost: A100 ≈ 1 день.

На практике мы комбинируем: CPT → SFT → LoRA → DPO. Каждый этап — отдельный checkpoint, отдельная eval.

On-premise инфраструктура

GPU requirements:

  • 70B dense model → 4x A100 80GB (BF16) или 8x A10G (quantized)
  • 702B MoE (GigaChat Ultra) → 8x A100/H100 для full model, но active params только 36B
  • 10B MoE (GigaChat Lightning) → 1x H100 для production throughput
  • 9B-35B (Qwen 3.5) → 1-2x A10G для development, 4x A10G для production

Inference: vLLM (production standard, PagedAttention, continuous batching), SGLang (alternativa с radical reasoning efficiency), Ollama (для development и smaller models).

RAG: Qdrant (Rust-based, high-performance) или Milvus (cloud-native). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.

Monitoring: Prometheus + Grafana (latency, throughput, cost per query), RAGAS (faithfulness ≥ 0.85, context recall ≥ 0.75), Phoenix (Arize AI) для tracing.

Когда адаптация российских LLM не нужна

Если ваша организация работает с публичными данными, не подпадает под 152-ФЗ/ФСТЭК/КИИ, и использует западные облачные LLM без проблем — возможно, адаптация не нужна. Cloud API (ChatGPT, Claude) решает 80% задач без инфраструктуры.

Адаптация российских LLM оправдана, когда:

  • Регуляторные требования: 152-ФЗ, ФСТЭК, ФСБ, КИИ, гостайна
  • Данные не покидают периметр: on-premise, air-gap
  • Зависимость от иностранных облаков — стратегический риск
  • Нужен контроль над качеством: fine-tuning под конкретный домен
  • Cost optimization: open-source дешевле API на масштабе (в 40 раз по стоимости токена)

Запросить пилот?

Согласуем сроки, метрики и оценку под вашу задачу.