Услуга

Дообучение и адаптация LLM под ваш домен

Адаптируем открытые модели под вашу терминологию, документы и стиль ответов через LoRA/QLoRA на вашем оборудовании. Данные не покидают периметр компании.

  • LoRA / QLoRA / DoRA под ваш домен
  • Данные остаются в вашем контуре
  • Eval-набор и метрики до и после
  • Qwen3.6, DeepSeek V4, Gemma 4 и другие модели
Состав работ

Что входит в дообучение

Аудит и eval-бейзлайн

Собираем целевые примеры, фиксируем базовую метрику и определяем, нужно ли дообучение вообще. Часто промптинг и RAG уже закрывают задачу - и мы честно об этом скажем.

Подготовка данных

Чистим и размечаем выборку из ваших документов и логов: от 100 примеров для классификации до 500-2000 для генеративных задач. Формируем train/validation, аугментируем при нехватке.

Выбор модели и метода

Подбираем базовую модель (Qwen3.6-27B, DeepSeek V4 Flash, Gemma 4) и стратегию: LoRA/QLoRA для большинства задач, DoRA для максимального качества, full fine-tune для глубокой адаптации.

Дообучение на вашем железе

Unsloth для быстрого single-GPU обучения, Axolotl для multi-GPU. Ранг 16-32, learning rate с cosine schedule, early stopping по validation loss. Контроль переобучения.

Оценка результата

Сравниваем метрики до и после на отложенной выборке: точность, соблюдение формата, устойчивость к prompt-инъекциям. При падении качества - откат к предыдущей версии.

Выкладка и сопровождение

Версионируем LoRA-адаптеры, разворачиваем через vLLM v0.22 с multi-LoRA serving. Обновляем при смене базовой модели, ротации данных или дрифте домена.

Технический разбор

Какую модель выбрать для дообучения

Модели, которые мы дообучаем (2026)

Выбор базовой модели - ключевое решение. От него зависит качество, стоимость инференса и лицензионная чистота.

Qwen3.6-27B (Alibaba, Apache 2.0) - лучший кандидат для single-GPU дообучения. 1M контекст, сильный reasoning, отличная база для инструктивного дообучения. На RTX 5090 в QLoRA - идеально.

Qwen3.6-35B-A3B (Apache 2.0) - MoE: 35B total / 3B active. Экстремально экономичный инференс после дообучения, качество выше 27B при меньшем VRAM на проде.

Gemma 4 31B (Google, Apache 2.0) - сильная мультимодальная база, 256K контекст. Хороша для domain adaptation где нужна работа с изображениями и текстом.

DeepSeek V4 Flash (MIT) - 284B MoE / 13B active. Для задач где нужен frontier-уровень reasoning. QLoRA на 2-4xH100.

DeepSeek V4 Pro (MIT) - 1.6T MoE / 49B active. Максимальное качество, требует кластера для обучения.

Методы: LoRA, QLoRA, DoRA

LoRA (Low-Rank Adaptation) - стандарт PEFT в 2026. Добавляет trainable low-rank матрицы к attention-слоям, не трогая основные веса. Обучаемых параметров: 0.1-1% от полной модели.

QLoRA - LoRA + 4-bit квантование базовой модели (NF4). Позволяет дообучать 27B-модели на одном RTX 5090. Стандарт для single-GPU сценариев.

DoRA (Weight-Decomposed Low-Rank Adaptation, NVIDIA 2024) - раскладывает веса на magnitude и direction. Качество ближе к full fine-tune при тех же затратах что LoRA. Используем для задач где LoRA недотягивает.

Инструменты

  • Unsloth - #1 по скорости (24-28% быстрее аналогов), 500+ поддерживаемых моделей. Основной инструмент для single-GPU.
  • Axolotl - гибкие конфиги YAML, лучший для multi-GPU и сложных пайплайнов.
  • Hugging Face TRL + PEFT - стандартная связка для SFT, DPO, RLHF. Максимальный контроль.
Когда это нужно

Когда стоит дообучать

Доменная терминология

Модель путает термины, аббревиатуры и внутренние названия. Дообучение выравнивает словарь под вашу предметную область.

Стиль и формат ответов

Нужен единый тон, структура и шаблоны - под регламенты поддержки, юридические формулировки или корпоративный стандарт.

Узкие задачи

Классификация обращений, извлечение полей из документов, маршрутизация - где промптинг нестабилен и нужна гарантированная точность.

Экономия на контексте

Знания, зашитые в веса, экономят токены и ускоряют ответ по сравнению с длинным RAG-контекстом.

Формат вывода

JSON по схеме, SQL, код на внутреннем DSL - где модель должна выдавать строго структурированный результат без отклонений.

Снижение галлюцинаций

Дообученная на доменных данных модель реже выдумывает факты в знакомой предметной области чем базовый промптинг.

Стратегия

RAG или дообучение: не вместо, а вместе

Дообучение не заменяет RAG, а дополняет его. Факты и часто меняющиеся данные оставляем в RAG-поиске с цитированием источников. В веса зашиваем стиль, формат и устойчивые доменные знания.

Практический критерий: если данные обновляются чаще раза в месяц - RAG. Если терминология и стиль стабильны годами - дообучение.

Для большинства production-задач рабочая схема - гибрид: адаптированная модель + RAG над актуальными документами. Модель понимает домен и держит стиль, RAG даёт свежие факты с цитированием.

Сначала измеряем, потом дообучаем

Перед дообучением собираем eval-набор на ваших примерах и фиксируем базовую метрику. Часто хороший системный промпт и RAG уже закрывают задачу - тогда дообучение не нужно, и мы честно об этом скажем.

Процесс

Как мы работаем

  1. 01

    Аудит и eval-бейзлайн

    Собираем 50-200 целевых примеров, замеряем качество базовой модели. Определяем тип задачи (классификация / генерация / структурированный вывод) и необходимый объём данных.

  2. 02

    Подготовка датасета

    Чистим, дедуплицируем, размечаем. При нехватке данных - аугментация и синтетическая генерация через сильную модель. Формируем train/validation/test.

  3. 03

    Выбор стратегии дообучения

    Определяем метод: QLoRA для single-GPU, LoRA для средних бюджетов, DoRA для максимального качества. Подбираем ранг (16-32), learning rate, количество эпох.

  4. 04

    Дообучение и валидация

    Unsloth или Axolotl на вашем оборудовании. Мониторим train/validation loss, early stopping. При переобучении - снижаем ранг или эпохи.

  5. 05

    Выкладка и мониторинг

    Сравниваем метрики до/после на тестовой выборке. Версионируем адаптер, разворачиваем через vLLM multi-LoRA. Настраиваем мониторинг дрифта.

Нужно адаптировать модель под ваш домен?

Пришлите примеры задач и данных - оценим, поможет ли дообучение, подберём модель и метод, рассчитаем сроки пилота.