Дообучение и адаптация LLM под ваш домен
Адаптируем открытые модели под вашу терминологию, документы и стиль ответов через LoRA/QLoRA на вашем оборудовании. Данные не покидают периметр компании.
- LoRA / QLoRA / DoRA под ваш домен
- Данные остаются в вашем контуре
- Eval-набор и метрики до и после
- Qwen3.6, DeepSeek V4, Gemma 4 и другие модели
Что входит в дообучение
Аудит и eval-бейзлайн
Собираем целевые примеры, фиксируем базовую метрику и определяем, нужно ли дообучение вообще. Часто промптинг и RAG уже закрывают задачу - и мы честно об этом скажем.
Подготовка данных
Чистим и размечаем выборку из ваших документов и логов: от 100 примеров для классификации до 500-2000 для генеративных задач. Формируем train/validation, аугментируем при нехватке.
Выбор модели и метода
Подбираем базовую модель (Qwen3.6-27B, DeepSeek V4 Flash, Gemma 4) и стратегию: LoRA/QLoRA для большинства задач, DoRA для максимального качества, full fine-tune для глубокой адаптации.
Дообучение на вашем железе
Unsloth для быстрого single-GPU обучения, Axolotl для multi-GPU. Ранг 16-32, learning rate с cosine schedule, early stopping по validation loss. Контроль переобучения.
Оценка результата
Сравниваем метрики до и после на отложенной выборке: точность, соблюдение формата, устойчивость к prompt-инъекциям. При падении качества - откат к предыдущей версии.
Выкладка и сопровождение
Версионируем LoRA-адаптеры, разворачиваем через vLLM v0.22 с multi-LoRA serving. Обновляем при смене базовой модели, ротации данных или дрифте домена.
Какую модель выбрать для дообучения
Модели, которые мы дообучаем (2026)
Выбор базовой модели - ключевое решение. От него зависит качество, стоимость инференса и лицензионная чистота.
Qwen3.6-27B (Alibaba, Apache 2.0) - лучший кандидат для single-GPU дообучения. 1M контекст, сильный reasoning, отличная база для инструктивного дообучения. На RTX 5090 в QLoRA - идеально.
Qwen3.6-35B-A3B (Apache 2.0) - MoE: 35B total / 3B active. Экстремально экономичный инференс после дообучения, качество выше 27B при меньшем VRAM на проде.
Gemma 4 31B (Google, Apache 2.0) - сильная мультимодальная база, 256K контекст. Хороша для domain adaptation где нужна работа с изображениями и текстом.
DeepSeek V4 Flash (MIT) - 284B MoE / 13B active. Для задач где нужен frontier-уровень reasoning. QLoRA на 2-4xH100.
DeepSeek V4 Pro (MIT) - 1.6T MoE / 49B active. Максимальное качество, требует кластера для обучения.
Методы: LoRA, QLoRA, DoRA
LoRA (Low-Rank Adaptation) - стандарт PEFT в 2026. Добавляет trainable low-rank матрицы к attention-слоям, не трогая основные веса. Обучаемых параметров: 0.1-1% от полной модели.
QLoRA - LoRA + 4-bit квантование базовой модели (NF4). Позволяет дообучать 27B-модели на одном RTX 5090. Стандарт для single-GPU сценариев.
DoRA (Weight-Decomposed Low-Rank Adaptation, NVIDIA 2024) - раскладывает веса на magnitude и direction. Качество ближе к full fine-tune при тех же затратах что LoRA. Используем для задач где LoRA недотягивает.
Инструменты
- Unsloth - #1 по скорости (24-28% быстрее аналогов), 500+ поддерживаемых моделей. Основной инструмент для single-GPU.
- Axolotl - гибкие конфиги YAML, лучший для multi-GPU и сложных пайплайнов.
- Hugging Face TRL + PEFT - стандартная связка для SFT, DPO, RLHF. Максимальный контроль.
Когда стоит дообучать
Доменная терминология
Модель путает термины, аббревиатуры и внутренние названия. Дообучение выравнивает словарь под вашу предметную область.
Стиль и формат ответов
Нужен единый тон, структура и шаблоны - под регламенты поддержки, юридические формулировки или корпоративный стандарт.
Узкие задачи
Классификация обращений, извлечение полей из документов, маршрутизация - где промптинг нестабилен и нужна гарантированная точность.
Экономия на контексте
Знания, зашитые в веса, экономят токены и ускоряют ответ по сравнению с длинным RAG-контекстом.
Формат вывода
JSON по схеме, SQL, код на внутреннем DSL - где модель должна выдавать строго структурированный результат без отклонений.
Снижение галлюцинаций
Дообученная на доменных данных модель реже выдумывает факты в знакомой предметной области чем базовый промптинг.
RAG или дообучение: не вместо, а вместе
Дообучение не заменяет RAG, а дополняет его. Факты и часто меняющиеся данные оставляем в RAG-поиске с цитированием источников. В веса зашиваем стиль, формат и устойчивые доменные знания.
Практический критерий: если данные обновляются чаще раза в месяц - RAG. Если терминология и стиль стабильны годами - дообучение.
Для большинства production-задач рабочая схема - гибрид: адаптированная модель + RAG над актуальными документами. Модель понимает домен и держит стиль, RAG даёт свежие факты с цитированием.
Сначала измеряем, потом дообучаем
Перед дообучением собираем eval-набор на ваших примерах и фиксируем базовую метрику. Часто хороший системный промпт и RAG уже закрывают задачу - тогда дообучение не нужно, и мы честно об этом скажем.
Как мы работаем
-
01
Аудит и eval-бейзлайн
Собираем 50-200 целевых примеров, замеряем качество базовой модели. Определяем тип задачи (классификация / генерация / структурированный вывод) и необходимый объём данных.
-
02
Подготовка датасета
Чистим, дедуплицируем, размечаем. При нехватке данных - аугментация и синтетическая генерация через сильную модель. Формируем train/validation/test.
-
03
Выбор стратегии дообучения
Определяем метод: QLoRA для single-GPU, LoRA для средних бюджетов, DoRA для максимального качества. Подбираем ранг (16-32), learning rate, количество эпох.
-
04
Дообучение и валидация
Unsloth или Axolotl на вашем оборудовании. Мониторим train/validation loss, early stopping. При переобучении - снижаем ранг или эпохи.
-
05
Выкладка и мониторинг
Сравниваем метрики до/после на тестовой выборке. Версионируем адаптер, разворачиваем через vLLM multi-LoRA. Настраиваем мониторинг дрифта.
Нужно адаптировать модель под ваш домен?
Пришлите примеры задач и данных - оценим, поможет ли дообучение, подберём модель и метод, рассчитаем сроки пилота.