Адаптация российских LLM

Российские LLM в 2026 году

Что доступно для enterprise и on-premise

GigaChat Ultra (702B MoE)

Sber, MIT license. GigaChat 3 Ultra Preview - 702B total / 36B active (MLA, MTP). GigaChat 3.1 Lightning - 10B MoE / 1.8B active, 8054 tok/s на одном H100. Open weights on HuggingFace, fine-tuning разрешён. GigaChat 2 Max - 128K контекст, мультимодальность (текст, изображения, аудио, видео). API: 65₽/1M токенов (Lite), 650₽ (Max).

YandexGPT 5.1 Pro / Lite

Pro - флагман, OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG, интеграция с Яндекс 360. Lite - open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Pro on-premise недоступен - только через Yandex Cloud. Lite on-premise - да, но качество существенно ниже Pro.

Qwen 3.5 / 3.6 (Alibaba)

Qwen 3.5 - 397B MoE / 17B active, Apache 2.0. Qwen 3.6 - сильная мультиязычность, включая русский. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). vLLM, SGLang for inference. Open-source, self-hosted, полная независимость от вендора. Лучшее соотношение цена/качество для on-premise.

MTS AI / MWS GPT

Облачная B2B-платформа с агрегатором моделей. Единая точка входа для собственных и open-source LLM. Function calling, дообучение, интеграция с Audiogram для речевой аналитики. Транскрипция звонков и совещаний с суммаризацией. Крупный бизнес на инфраструктуре МТС.

ruGPT / T-lite

ruGPT (Сбербанк) - encoder-decoder модель, fine-tuned на русском. T-lite (Т-Банк) - адаптированная для финтеха. Saiga - российская дообученная LLaMa. Все включены в Единый реестр российского ПО Минцифры. Подходят для сертифицированных on-premise развёртываний.

Open-source + Russian adaptation

Qwen3 (14B - 235B), DeepSeek V3, Llama 3.1 (8B - 70B) - с Russian-adapted weights (RuadaptQwen2.5-32B, T-pro-it-1.0, Zero-Mistral-Small-24B). По данным аналитиков, open-source в среднем в 40 раз дешевле проприетарных на уровне стоимости токена - но компенсируется затратами на инфраструктуру и MLOps-команду.

Как мы адаптируем LLM под ваш бизнес

01

Аудит требований и регуляторики

Определяем уровень безопасности: Level 1 (гостайна, банки, КИИ) → сертифицированный ЦОД, air-gap, СКЗИ КС1-КС2. Level 2 (персональные данные, коммерческая тайна) → on-premise, шифрование, аудит. Level 3 (внутренние бизнес-процессы) → облако или hybrid. Анализируем применимые нормативы: 152-ФЗ, ФСТЭК №21, приказ ФСБ, отраслевые требования (Положение ЦБ 683-П для банков).
02

Выбор модели и стратегии адаптации

Выбираем базовую модель: GigaChat Ultra (если нужны открытые веса и российская модель), Qwen 3.5/3.6 (лучшее соотношение цена/качество), YandexGPT Lite (если экосистема Яндекса). Выбираем стратегию: Continued Pretraining (CPT) - если corpusdomain специфичный; SFT - если нужен style/tone; LoRA/QLoRA PEFT - для cost-efficient fine-tuning; DPO - для alignment и снижения галлюцинаций.
03

Подготовка данных и fine-tuning

Собираем и структурируем domain corpus: техническая документация, регламенты, договоры, переписка, базы знаний. Data cleaning, deduplication, quality scoring. Fine-tuning через LoRA/QLoRA (для экономии GPU resources) или full fine-tuning (для максимальной адаптации). QLoRA на 4-bit quantization - для 70B модели достаточно ~40GB VRAM на GPU. Training: 3-10 epochs, lr=1e-4 to 5e-5. DPO alignment на preference data для снижения галлюцинаций.
04

On-premise развёртывание

vLLM / SGLang / Ollama для инференса. Qdrant/Milvus для RAG. LangChain/LlamaIndex для orchestration. GPU requirements: 70B model → 2-4x A100/H100 или 8x A10G. MoE модели (GigaChat 3 Ultra: 702B total, 36B active) - экономия compute за счёт sparse activation. MLA (Multi-head Latent Attention) - compression KV cache, reduced memory footprint. Monitoring: Prometheus + Grafana, latency, throughput, cost per query.
05

Валидация и мониторинг

Eval set: 200-500 domain-specific questions с ground-truth answers. Metrics: accuracy, hallucination rate, response latency, token cost. Continuous monitoring: drift detection, performance degradation alerts. A/B testing: fine-tuned vs baseline. Feedback loop: user ratings → preference data → DPO retraining. Regular retraining cadence: monthly or quarterly.

Сравнение подходов к адаптации LLM

CPT, SFT, LoRA, DPO - что и когда применять

Метод	Что делает	Когда применять	Cost
CPT (Continued Pretraining)	Добавляем knowledge на corpus из domain texts	Domain corpus большой (100M+ tokens), специфичная terminologia	Высокий: GPU days, 100M tokens на A100 ≈ 2-4 дня
SFT (Supervised Fine-Tuning)	Учим model style и response format на labeled examples	Нужен конкретный tone, формат ответов, структура	Средний: 10K-50K examples, A100 ≈ 1-2 дня
LoRA / QLoRA (PEFT)	Адаптируем model с минимальными trainable parameters	Cost-sensitive fine-tuning, 70B+ модели, limited GPU	Низкий: 0.1-1% trainable params, 4-bit QLoRA ≈ 40GB VRAM
DPO (Direct Preference Optimization)	Align model по human preferences, снижаем галлюцинации	Нужен controlled output, compliance, safety-critical	Средний: 5K-20K preference pairs, A100 ≈ 1 день

Типичные ошибки при адаптации российских LLM

1. Выбор модели без пилотного тестирования на ваших данных. «Превосходит GPT-4.1 в 56% случаев» - результат на конкретной выборке, а не на ваших договорах. 2. Open-source Lite vs proprietary Pro. YandexGPT Lite open-source существенно уступает Pro по качеству. GigaChat open weights - да, но 702B MoE требует кластера GPU. 3. Игнорирование MLOps-инфраструктуры. Без vLLM, мониторинга, CI/CD для моделей - fine-tuned модель деградирует через месяц. 4. Отсутствие eval set. Нет domain-specific вопросов с ground-truth - нет метрик, нет контроля качества.

Инфраструктура для on-premise LLM

От GPU до мониторинга

GPU Hardware

A100 80GB (4-8 шт) - стандарт для 70B models. H100 - для high-throughput production. A10G (8 шт) - cost-effective для MoE models (GigaChat Lightning 10B, Qwen 3.5 9B). FP8 quantization (GigaChat 3.1 Lightning: 8054 tok/s на одном H100). MLA compression - 40-60% memory savings for KV cache.

Inference Engine

vLLM - production standard, PagedAttention, continuous batching. SGLang - alternative with radical reasoning efficiency. Ollama - для development и smaller models. Triton Inference Server - для GPU serving at scale. Все open-source, self-hosted, no vendor lock-in.

Vector DB + RAG

Qdrant - Rust-based, high-performance, Python/Go/TS clients. Milvus - Zilliz, cloud-native, scalable. Both support hybrid search (dense + sparse). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.

Orchestration

LangChain - most popular, broadest integrations. LlamaIndex - best for RAG-specific workflows. LangGraph - agentic patterns with stateful multi-step reasoning. GigaChain - Russian-specific wrapper for GigaChat + LangChain compatibility. All self-hosted.

Monitoring

Prometheus + Grafana - latency, throughput, error rates, cost per query. RAGAS - faithfulness, answer relevancy, context precision/recall. Phoenix (Arize AI) - trace and analyze LLM calls. LangSmith - for LangChain-specific observability.

Security & Compliance

Air-gap deployment - no internet connectivity. СКЗИ из реестра ФСТЭК. RBAC + audit logging. Data encryption at rest and in transit. FSTEC Level 2-3 compliance. 152-ФЗ: PДн processing on Russian territory. Registry of Russian software (Минцифры).

Техническая глубина адаптации российских LLM

Почему российские LLM для бизнеса - не просто «ChatGPT без VPN»

Выбор LLM для российских компаний в 2026 году - это не техническая задача, а стратегическое решение. Санкционное давление, требования 152-ФЗ о локализации персональных данных, запрет иностранного ПО в госсекторе (Указ № 250), требования ФСТЭК и ФСБ - всё это превратило выбор модели из технического решения в вопрос compliance.

Но за регуляторикой стоит реальная техническая проблема: как получить качество, сопоставимое с западными моделями, при работе с русскоязычными данными, в закрытом контуре, без телеметрии и без зависимости от иностранных облаков.

Пейзаж российских LLM в 2026

GigaChat - зрелая платформа от Сбера. Линейка 2-го поколения (Lite, Pro, Max) с контекстом 128K токенов. Мультимодальность «из коробки»: текст, изображения (Kandinsky), аудио, видео, веб-поиск. Ключевое преимущество: открытые веса GigaChat Ultra (702B MoE, MIT license) для развёртывания в закрытом контуре. GigaChat 3 Ultra Preview - флагманская instruct-модель с MLA (Multi-head Latent Attention) и MTP (Multi-Token Prediction). GigaChat 3.1 Lightning - 10B MoE / 1.8B active, 8054 tok/s на одном H100, FP8 quantization. API: от 65₽/1M токенов (Lite) до 650₽ (Max).

YandexGPT 5.1 Pro - флагман для русского языка. OpenAI-совместимый API (с марта 2026), эмбеддинги для RAG-пайплайнов, интеграция с Яндекс 360. Lite - open-source на HuggingFace, дообучение через Yandex Cloud AI Studio. Минус: Pro on-premise недоступна - только через Yandex Cloud. Lite on-premise - да, но качество существенно ниже Pro.

Qwen 3.5/3.6 - китайские open-source модели с сильной мультиязычностью. Qwen 3.5: 397B MoE / 17B active, Apache 2.0. Fine-tuning через LoRA/QLoRA (Unsloth, 74GB VRAM для 35B-A3B). Лучшее соотношение цена/качество для self-hosted деплоя. Russian-adapted variants: RuadaptQwen2.5-32B-Instruct.

ruGPT / T-lite / Saiga - российские модели с дообучением на русскоязычных данных. Включены в Единый реестр российского ПО Минцифры. Saiga - дообученная LLaMa. Подходят для сертифицированных on-premise развёртываний.

Стратегии адаптации: CPT, SFT, LoRA, DPO

Continued Pretraining (CPT) - дообучаем модель на domain corpus из 100M+ токенов. Применяем, когда corpus специфичный (техническая документация, юриспруденция, медицина). Модель учится новой терминологии и стилю. Cost: GPU days, 100M tokens на A100 ≈ 2-4 дня.

Supervised Fine-Tuning (SFT) - учим model style и response format на labeled examples (10K-50K examples). Применяем, когда нужен конкретный tone, формат ответов, структура. Cost: A100 ≈ 1-2 дня.

LoRA / QLoRA (PEFT) - Parameter-Efficient Fine-Tuning. Адаптируем модель с минимальными trainable parameters (0.1-1% от total). QLoRA на 4-bit quantization: для 70B модели достаточно ~40GB VRAM. Применяем для cost-efficient fine-tuning. Cost: 4-bit QLoRA ≈ 40GB VRAM на GPU.

DPO (Direct Preference Optimization) - align model по human preferences. Снижаем галлюцинации, improving compliance. 5K-20K preference pairs. Применяем для safety-critical задач. Cost: A100 ≈ 1 день.

На практике мы комбинируем: CPT → SFT → LoRA → DPO. Каждый этап - отдельный checkpoint, отдельная eval.

On-premise инфраструктура

GPU requirements:

70B dense model → 4x A100 80GB (BF16) или 8x A10G (quantized)
702B MoE (GigaChat Ultra) → 8x A100/H100 для full model, но active params только 36B
10B MoE (GigaChat Lightning) → 1x H100 для production throughput
9B-35B (Qwen 3.5) → 1-2x A10G для development, 4x A10G для production

Inference: vLLM (production standard, PagedAttention, continuous batching), SGLang (alternativa с radical reasoning efficiency), Ollama (для development и smaller models).

RAG: Qdrant (Rust-based, high-performance) или Milvus (cloud-native). Embedding models: Yandex embeddings, GigaChat embeddings, Qwen embeddings, Nomic Embed Multimodal.

Monitoring: Prometheus + Grafana (latency, throughput, cost per query), RAGAS (faithfulness ≥ 0.85, context recall ≥ 0.75), Phoenix (Arize AI) для tracing.

Когда адаптация российских LLM не нужна

Если ваша организация работает с публичными данными, не подпадает под 152-ФЗ/ФСТЭК/КИИ, и использует западные облачные LLM без проблем - возможно, адаптация не нужна. Cloud API (ChatGPT, Claude) решает 80% задач без инфраструктуры.

Адаптация российских LLM оправдана, когда:

Регуляторные требования: 152-ФЗ, ФСТЭК, ФСБ, КИИ, гостайна
Данные не покидают периметр: on-premise, air-gap
Зависимость от иностранных облаков - стратегический риск
Нужен контроль над качеством: fine-tuning под конкретный домен
Cost optimization: open-source дешевле API на масштабе (в 40 раз по стоимости токена)

Каталог услуг

Другие услуги

Машинное зрение Системы машинного зрения для промышленности: контроль качества, дефектоскопия, сортировка, изме… ИИ-боты и агенты Проектируем и внедряем интеллектуальных ботов в Telegram, WhatsApp, корпоративные порталы и веб… Видеоаналитика и безопасность на объекте Системы интеллектуальной видеоаналитики для промышленных объектов, складов и периметров: детекц… Сортировка и классификация продукции на конвейере Системы автоматической сортировки и классификации продукции на конвейере: распознавание по визу…

Запросить пилот?

Согласуем сроки, метрики и оценку под вашу задачу.

Обсудить проект