Частные LLM и RAG в закрытом контуре
Развёртываем DeepSeek V4, Qwen 3.6, GLM-5.1, Llama 4 и другие открытые модели на вашем оборудовании. Строим RAG-системы для интеллектуального поиска по корпоративным документам - с гибридным поиском, переранжированием и цитированием источников. Данные не покидают периметр.
- DeepSeek V4, Qwen 3.6, GLM-5.1 и другие открытые модели
- RAG по PDF, DOCX, 1С, почте и корпоративным системам
- On-premise, air-gap, приватность по умолчанию
- Inference-стек: vLLM / SGLang / Triton / Ollama
- Qdrant, гибридный поиск, reranking, RAGAS-метрики
Что входит
Полный цикл: от подбора модели до промышленной эксплуатации
Подбор и развёртывание LLM
DeepSeek V4 Pro, Qwen 3.6-27B, GLM-5.1, Llama 4 Scout, Kimi K2.6 - выбираем модель под вашу задачу, GPU-бюджет и лицензионные требования.
RAG-конвейер
Семантическое чанкование документов, гибридный поиск (dense + BM25), переранжирование cross-encoder'ом и цитирование источников в каждом ответе.
Векторное хранилище
Qdrant или Milvus с мультитенантностью, фильтрацией по метаданным, инкрементальной индексацией и гибридным поиском.
Guardrails и безопасность
Защита от prompt-инъекций, PII-фильтры, ролевой доступ (RBAC), полное журналирование запросов, интеграция с SIEM.
Мониторинг и поддержка
Prometheus, Grafana, DCGM для GPU, RAGAS-метрики faithfulness/context recall, SLA, регулярное обновление моделей.
Интеграция
1С, CRM, Bitrix24, корпоративные мессенджеры, SCADA/MES, MCP-протокол для агентов и внешних сервисов.
Как мы внедряем
-
01
Аудит и постановка задачи
Описываем целевые метрики качества, границы пилота, требования к данным и composability. Определяем критерии успеха и план масштабирования.
-
02
Прототип на ваших данных
За 1 - 3 недели собираем работающий контур на реальных данных: загружаем документы, настраиваем retrieval, демонстрируем качество. Без покупки железа.
-
03
Промышленный запуск
Развёртываем выбранный стек в вашем контуре, интегрируем с источниками, настраиваем guardrails, мониторинг и RAGAS-оценку в CI/CD.
-
04
Сопровождение
Регулярный контроль метрик, дообучение и смена моделей, обновление векторных индексов, обучение команды, SLA 24/7 по согласованию.
Какие модели мы развёртываем
Актуальный стек открытых моделей под 2026 год
| Модель | Параметры | Особенности | Лицензия |
|---|---|---|---|
| DeepSeek V4 Pro / Flash | MoE, до 1T | 1M токенов контекст, agentic coding, SWE-Bench frontier | Custom (commercial ok) |
| Qwen 3.6-27B | 27B dense | Лучшая small model 2026, Apache 2.0, сильное reasoning | Apache 2.0 |
| GLM-5.1 | 754B MoE | MIT-лицензия, сильное мультиязычное качество | MIT |
| Llama 4 Scout | 17B MoE active | Работает на одной GPU, multilingual, инструктивное качество | Llama 4 Community |
| Kimi K2.6 (Moonshot) | MoE | #1 open model по Artificial Analysis Index | Custom |
Приватность по умолчанию
Модели и векторные индексы разворачиваются только внутри периметра заказчика. Запросы не уходят во внешние API. Все взаимодействия журналируются и доступны для аудита. Работаем в on-premise, выделенном ДЦ или air-gap.
Ошибки, которых мы не допускаем
Типовые риски внедрения LLM и RAG, которые мы исключаем на этапе архитектуры
Работа без метрик качества
Без RAGAS и eval-набора нельзя оценить, отвечает ли система бизнес-требованиям. Закладываем метрики с первого дня.
Наивный retrieval
Фиксированный чанк без гибридного поиска (dense + BM25) даёт пропуски релевантных документов и ложные ответы.
Игнорирование guardrails
Prompt-инъекции - #1 риск OWASP GenAI Top-10. Без входных и выходных фильтров данные и промпты под угрозой.
Облачная зависимость
Отправка данных во внешний API сводит на нет приватность. Любая модель работает только внутри контура, без исключений.
Отсутствие reranking
Топ-K векторов без cross-encoder переранжирования снижает точность ответа на 25 - 35%. Это критично для ответов с цитатами.
Забыли про мониторинг
Без Prometheus, Grafana и RAGAS нет понимания latency, throughput, ошибок модели и деградации качества.
Архитектура и инженерные решения
Как устроен production-контур
Стандартная архитектура частной LLM + RAG включает четыре слоя:
Инференс. Выбираем между vLLM (наиболее зрелый, PagedAttention, широкая поддержка GPU) и SGLang (выше throughput на H100, RadixAttention для prefix-кэширования). Для прототипов и малых нагрузок используем Ollama поверх llama.cpp. При необходимости - Triton Inference Server для мультимодельного serving.
Retrieval. Qdrant как основной векторный движок - Rust, низкая задержка, гибридный поиск из коробки. Семантическое чанкование с перекрытием 10 - 20% и оптимальным размером 256 - 512 токенов. BM25 как sparse-ретривер для редких терминов. RRF-фузия результатов. Cross-encoder reranker (bge-reranker-v2) для финальной сортировки top-N.
Guardrails. Два уровня: входные фильтры (обнаружение prompt-инъекций, PII, стоп-слов) и выходные (проверка factuality, соответствие политике). Используем NeMo Guardrails или LLM Guard - open-source, без привязки к вендору.
Наблюдаемость. RAGAS-метрики: faithfulness (нет ли вымысла), answer relevancy, context precision, context recall. Prometheus + Grafana собирают latency, throughput, KV-cache usage, GPU utilization через DCGM. Алёрты при деградации качества.
Интеграция с существующей инфраструктурой
REST API через единый gateway с аутентификацией и rate-limiting. MCP-протокол для подключения к ИИ-агентам. Готовые коннекторы к 1С (HTTP-сервисы, обмен через REST), CRM, Bitrix24, Telegram, Slack. Для SCADA/MES - OPC UA и Modbus.
Когда LLM не нужен
Если задача решается классическим поиском, регулярными выражениями или бизнес-правилами - мы честно об этом скажем. ИИ - не универсальная замена, а инструмент для задач, где нужны понимание контекста, генерация и извлечение смысла.
Готовы развернуть частную LLM?
Опишите задачи, типы документов и требования к приватности - предложим архитектуру и план пилота под ваш контур.