Услуга

Мониторинг и MLOps для ИИ-систем

Внедряем полный стек observability для LLM, RAG и агентов в закрытом контуре: метрики качества, трассировка запросов, дрифт, стоимость и безопасность.

  • Faithfulness, answer relevancy, context precision — онлайн
  • Автоматическая оценка качества ответов на проде
  • Стандартизированная трассировка LLM-вызовов
  • Grafana, алерты, SLA по латенси и качеству
  • Реестр промптов с A/B-тестами и откатом
  • Prompt-инъекции, PII, офтопик, политики безопасности

Что входит

RAGAS-метрики качества

Оценка RAG-пайплайна: faithfulness, answer relevancy, context precision, context recall, G-eval. Интеграция в CI/CD для регрессионного тестирования.

LLM-as-judge

Асинхронная онлайн-оценка каждого ответа через judge-модель. Позволяет детектировать галлюцинации и падение качества до жалоб пользователей.

OpenTelemetry LLM-tracing

Инструментирование LLM-вызовов через OTel GenAI semantic conventions. Полная трассировка: prompt → retrieval → LLM → response → score.

Prompt-регистр

Версионирование промптов (Git + YAML), A/B-тестирование на живом трафике, откат по метрикам, аудит отправляемых в модель данных.

Cost observability

Токен-трекинг с attribution по фичам, пользователям, тирам. Бюджетные алерты (70% — предупреждение, 100% — стоп). Анализ prompt bloat.

Семантический кэш

GPTCache / Redis + vector similarity — сокращение стоимости инференса на 30–60% на повторяющихся запросах без потери качества.

Как мы внедряем

  1. 01

    Аудит точек замера

    Определяем, какие LLM-вызовы, RAG-пайплайны и агентские сессии нужно инструментировать. Выбираем метрики: качество, стоимость, латенси, drift.

  2. 02

    OTel-инструментирование

    Внедряем OpenTelemetry SDK, LLM semantic conventions. Разворачиваем LangFuse / Arize Phoenix для хранения трейсов и eval-скор.

  3. 03

    Метрики и дашборды

    Prometheus + Grafana: RAGAS-метрики, p99 латенси, токены/сек, стоимость/запрос, drift detection, guardrails-срабатывания.

  4. 04

    Алерты и SLO

    Настраиваем multi-tier алерты (warning/critical): качество ниже порога, скачок стоимости, рост hallucination rate, tool-call failure.

  5. 05

    Runbook и обучение

    Документируем процессы реагирования, обучаем команду работе с дашбордами, описываем критерии отката моделей и промптов.

Чем LLM-observability отличается от обычного мониторинга

Три столпа — и ещё три

Классический APM строится на logs, metrics, traces. Для LLM этого недостаточно: модель отвечает вероятностно, ошибка не падает в 500-й статус, а проявляется в неверном, но связном ответе.

Дополнительные измерения LLM-observability:

  • Оценка качества (eval scores): faithfulness, relevance, completeness — через LLM-as-judge, а не через код возврата.
  • Дрифт промптов и модели: изменение поведения после обновления промпта, апдейта модели или ротации данных.
  • Token & cost telemetry: prompt- и completion-токены, attribution по features, фиксация prompt bloat.
  • Retrieval quality: hit rate, MRR, NDCG, precision/recall контекста — для RAG-систем.
  • Guardrails alerts: prompt-инъекции, PII-утечки, офтопик, нарушение политик.

Стек 2026

В 2026 году стандартом LLM-трассировки стали OpenTelemetry GenAI semantic conventions (стабилизированы в конце 2025). С ними каждый span несёт атрибуты: gen_ai.system, gen_ai.request.model, gen_ai.usage.input_tokens, gen_ai.response.finish_reasons.

Для хранения и визуализации используем:

  • LangFuse — опенсорс-платформа трейсинга + eval + prompt-менеджмент
  • Arize Phoenix — встраиваемая библиотека с локальным UI
  • Prometheus + Grafana — агрегированные метрики и алерты
  • RAGAS — библиотека метрик качества RAG (pip install ragas)

Стоимость владения

По данным MLOps Community, 68% команд узнают о проблемах с LLM от пользователей (2025). С внедрением observability среднее время детекции падает с часов до минут, стоимость одного инцидента — в 4–7 раз.

Что мы отслеживаем

Качество ответов

Faithfulness, relevance, completeness через LLM-as-judge. Алерт при падении среднего скора ниже порога.

Retrieval quality

Hit rate, MRR, context precision/recall для RAG. Раннее выявление деградации чанк-стратегии.

Латенси

TTFT (time-to-first-token), TPOT (tokens-per-output-token), p99 latency. SLA-нарушения → алерт.

Стоимость

Стоимость/запрос, стоимость/фича, дрифт длины контекста, prompt bloat. Бюджетные лимиты.

Дрифт модели

Сравнение eval-скоров до и после обновления модели/промпта/данных. Автостоп при регрессе.

Guardrails

Prompt-инъекции, PII в ответе, офтопик, нецензурная лексика. Аудит и алерты в реальном времени.

Приватность данных

Вся observability работает в вашем контуре: трейсы, оценки, метрики — ничего не уходит во внешние API. LangFuse, Prometheus и Grafana разворачиваются on-premise.

Внедрить мониторинг ИИ-систем?

Опишите сценарий: RAG, чат-бот, агент или несколько. Расскажем, какие метрики ставить, как инструментировать код и сколько времени займёт внедрение.