Услуга

Частные LLM и RAG в закрытом контуре

Развёртываем DeepSeek V4, Qwen 3.6, GLM-5.1, Llama 4 и другие открытые модели на вашем оборудовании. Строим RAG-системы для интеллектуального поиска по корпоративным документам - с гибридным поиском, переранжированием и цитированием источников. Данные не покидают периметр.

  • DeepSeek V4, Qwen 3.6, GLM-5.1 и другие открытые модели
  • RAG по PDF, DOCX, 1С, почте и корпоративным системам
  • On-premise, air-gap, приватность по умолчанию
  • Inference-стек: vLLM / SGLang / Triton / Ollama
  • Qdrant, гибридный поиск, reranking, RAGAS-метрики

Что входит

Полный цикл: от подбора модели до промышленной эксплуатации

Подбор и развёртывание LLM

DeepSeek V4 Pro, Qwen 3.6-27B, GLM-5.1, Llama 4 Scout, Kimi K2.6 - выбираем модель под вашу задачу, GPU-бюджет и лицензионные требования.

RAG-конвейер

Семантическое чанкование документов, гибридный поиск (dense + BM25), переранжирование cross-encoder'ом и цитирование источников в каждом ответе.

Векторное хранилище

Qdrant или Milvus с мультитенантностью, фильтрацией по метаданным, инкрементальной индексацией и гибридным поиском.

Guardrails и безопасность

Защита от prompt-инъекций, PII-фильтры, ролевой доступ (RBAC), полное журналирование запросов, интеграция с SIEM.

Мониторинг и поддержка

Prometheus, Grafana, DCGM для GPU, RAGAS-метрики faithfulness/context recall, SLA, регулярное обновление моделей.

Интеграция

1С, CRM, Bitrix24, корпоративные мессенджеры, SCADA/MES, MCP-протокол для агентов и внешних сервисов.

Как мы внедряем

  1. 01

    Аудит и постановка задачи

    Описываем целевые метрики качества, границы пилота, требования к данным и composability. Определяем критерии успеха и план масштабирования.

  2. 02

    Прототип на ваших данных

    За 1 - 3 недели собираем работающий контур на реальных данных: загружаем документы, настраиваем retrieval, демонстрируем качество. Без покупки железа.

  3. 03

    Промышленный запуск

    Развёртываем выбранный стек в вашем контуре, интегрируем с источниками, настраиваем guardrails, мониторинг и RAGAS-оценку в CI/CD.

  4. 04

    Сопровождение

    Регулярный контроль метрик, дообучение и смена моделей, обновление векторных индексов, обучение команды, SLA 24/7 по согласованию.

Какие модели мы развёртываем

Актуальный стек открытых моделей под 2026 год

МодельПараметрыОсобенностиЛицензия
DeepSeek V4 Pro / Flash MoE, до 1T 1M токенов контекст, agentic coding, SWE-Bench frontier Custom (commercial ok)
Qwen 3.6-27B 27B dense Лучшая small model 2026, Apache 2.0, сильное reasoning Apache 2.0
GLM-5.1 754B MoE MIT-лицензия, сильное мультиязычное качество MIT
Llama 4 Scout 17B MoE active Работает на одной GPU, multilingual, инструктивное качество Llama 4 Community
Kimi K2.6 (Moonshot) MoE #1 open model по Artificial Analysis Index Custom

Приватность по умолчанию

Модели и векторные индексы разворачиваются только внутри периметра заказчика. Запросы не уходят во внешние API. Все взаимодействия журналируются и доступны для аудита. Работаем в on-premise, выделенном ДЦ или air-gap.

Ошибки, которых мы не допускаем

Типовые риски внедрения LLM и RAG, которые мы исключаем на этапе архитектуры

Работа без метрик качества

Без RAGAS и eval-набора нельзя оценить, отвечает ли система бизнес-требованиям. Закладываем метрики с первого дня.

Наивный retrieval

Фиксированный чанк без гибридного поиска (dense + BM25) даёт пропуски релевантных документов и ложные ответы.

Игнорирование guardrails

Prompt-инъекции - #1 риск OWASP GenAI Top-10. Без входных и выходных фильтров данные и промпты под угрозой.

Облачная зависимость

Отправка данных во внешний API сводит на нет приватность. Любая модель работает только внутри контура, без исключений.

Отсутствие reranking

Топ-K векторов без cross-encoder переранжирования снижает точность ответа на 25 - 35%. Это критично для ответов с цитатами.

Забыли про мониторинг

Без Prometheus, Grafana и RAGAS нет понимания latency, throughput, ошибок модели и деградации качества.

Архитектура и инженерные решения

Как устроен production-контур

Стандартная архитектура частной LLM + RAG включает четыре слоя:

Инференс. Выбираем между vLLM (наиболее зрелый, PagedAttention, широкая поддержка GPU) и SGLang (выше throughput на H100, RadixAttention для prefix-кэширования). Для прототипов и малых нагрузок используем Ollama поверх llama.cpp. При необходимости - Triton Inference Server для мультимодельного serving.

Retrieval. Qdrant как основной векторный движок - Rust, низкая задержка, гибридный поиск из коробки. Семантическое чанкование с перекрытием 10 - 20% и оптимальным размером 256 - 512 токенов. BM25 как sparse-ретривер для редких терминов. RRF-фузия результатов. Cross-encoder reranker (bge-reranker-v2) для финальной сортировки top-N.

Guardrails. Два уровня: входные фильтры (обнаружение prompt-инъекций, PII, стоп-слов) и выходные (проверка factuality, соответствие политике). Используем NeMo Guardrails или LLM Guard - open-source, без привязки к вендору.

Наблюдаемость. RAGAS-метрики: faithfulness (нет ли вымысла), answer relevancy, context precision, context recall. Prometheus + Grafana собирают latency, throughput, KV-cache usage, GPU utilization через DCGM. Алёрты при деградации качества.

Интеграция с существующей инфраструктурой

REST API через единый gateway с аутентификацией и rate-limiting. MCP-протокол для подключения к ИИ-агентам. Готовые коннекторы к 1С (HTTP-сервисы, обмен через REST), CRM, Bitrix24, Telegram, Slack. Для SCADA/MES - OPC UA и Modbus.

Когда LLM не нужен

Если задача решается классическим поиском, регулярными выражениями или бизнес-правилами - мы честно об этом скажем. ИИ - не универсальная замена, а инструмент для задач, где нужны понимание контекста, генерация и извлечение смысла.

Готовы развернуть частную LLM?

Опишите задачи, типы документов и требования к приватности - предложим архитектуру и план пилота под ваш контур.