Услуга

Agentic RAG

Обычный RAG извлекает документы один раз и генерирует ответ. Agentic RAG — агент сам решает, что искать, проверяет найденное, задаёт уточняющие вопросы и итеративно собирает доказательства. Retrieve → Reflect → Refine → Act. LangGraph, A-RAG, Self-RAG, Corrective RAG — в вашем контуре.

  • Retrieve → Reflect → Refine → Act: цикл агента с retrieval
  • Self-RAG: агент оценивает релевантность найденного
  • A-RAG: иерархические интерфейсы (keyword + semantic + full)
  • LangGraph, CrewAI, ReAct — production-оркестрация

Agentic RAG vs классический RAG

Когда простой pipeline не справляется, а агент нужен

Multi-hop reasoning

Ответ A зависит от факта B, который находится в документе C. Классический RAG извлекает по исходному запросу и не видит связь. Agentic RAG: первый retrieval → обнаруживает факт B → формирует новый запрос → второй retrieval → синтезирует ответ. Два и более шага поиска, каждый обусловлен результатами предыдущего.

Итеративное уточнение

Исходный запрос недостаточно конкретен. Агент извлекает документы, оценивает, что информации недостаточно, формирует уточняющий запрос, извлекает заново. Self-RAG: агент генерирует reflection-токены и оценивает релевантность и надёжность каждого найденного фрагмента перед использованием.

Tool-use + retrieval

Агент использует не только векторный поиск, но и keyword search, full document read, API-вызовы, SQL-запросы. A-RAG (arXiv:2602.03442, февраль 2026) — иерархические интерфейсы: keyword search (точные термины), semantic search (концептуальные запросы), chunk read (полный документ). Агент сам выбирает инструмент.

Многоагентная коллаборация

Специализированные агенты: planner (декомпозирует задачу), evidence-gatherer (ищет и извлекает), critique (оценивает качество), generator (генерирует ответ). Evidence передаётся между агентами. LangGraph v1.1 — durable execution, checkpointing, human-in-the-loop.

Corrective RAG (CRAG)

Агент оценивает релевантность retrieved документов. Если качество низкое — корректирует запрос, меняет стратегию поиска (dense → BM25 → full text), извлекает заново. Если качество высокое — передаёт в LLM для генерации. Автоматическая коррекция без ручного вмешательства.

Декомпозиция сложных задач

Сложный вопрос разбивается на подзапросы, каждый решается отдельно, результаты композятся. Adaptive RAG: классификатор определяет сложность запроса и выбирает глубину пайплайна. Простой вопрос → один-shot retrieval. Сложный → multi-step agentic loop.

Как мы внедряем Agentic RAG

  1. 01

    Аудит сценариев и декомпозиция

    Изучаем бизнес-процессы, определяем типы запросов: одношаговые (подойдёт классический RAG) и многошаговые (нужен Agentic RAG). Декомпозируем сложные сценарии: какие данные нужны, в каком порядке, какие инструменты задействовать.

  2. 02

    Проектирование агента и графа состояний

    Проектируем LangGraph-граф: узлы (retrieval, critique, generation, tool-use), рёбра (условные переходы на основе оценки качества). Выбираем паттерн: ReAct, Plan-Execute-Reflect, Self-RAG, Corrective RAG или Adaptive RAG. Настраиваем budget controls: макс. число retrieval-вызовов, early stopping.

  3. 03

    Реализация retrieval-интерфейсов

    Настраиваем иерархические интерфейсы: keyword search (BM25), semantic search (dense vectors), full document read, API-коннекторы. A-RAG-подход: агент сам выбирает инструмент из доступных. Интегрируем с Qdrant, Neo4j, 1С, CRM через MCP.

  4. 04

    Guardrails и верификация

    Self-RAG-style critique: агент оценивает релевантность и надёжность каждого retrieved фрагмента. Верификация фактов перед передачей в reasoning chain. Guardrails на вход и выход. Human-in-the-loop для деструктивных операций.

  5. 05

    Пилот и оценка

    Тестируем на реальных вопросах. Измеряем trajectory-level метрики: retrieval drift, hallucination propagation, tool misuse. RAGAS-метрики на каждом шаге. Передаём документацию, мониторинг, SLA.

Паттерны Agentic RAG

Пять production-паттернов и когда каждый применять

ПаттернКак работаетКогда применять
Self-RAG Агент генерирует reflection-токены: оценивает релевантность и достоверность каждого retrieved фрагмента Когда важна точность: финансы, юриспруденция, медицина
Corrective RAG Агент оценивает качество retrieved. Если низкое — корректирует запрос и ищет заново Когда источник данных нестабилен, качество retrieval переменчиво
Adaptive RAG Классификатор определяет сложность запроса и выбирает глубину пайплайна Когда смешанные запросы: от простых до сложных multi-hop
ReAct over documents Agent: Reason → Act (retrieval) → Observe → Repeat Когда нужен интерактивный поиск с промежуточными решениями
Query decomposition Сложный вопрос → подзапросы → параллельный retrieval → композинг результатов Когда вопрос требует данных из нескольких источников

Риски agentic RAG в production

Исследование SoK: Agentic RAG (Mishra et al., arXiv:2603.07379, март 2026) идентифицирует шесть системных уязвимостей: retrieval drift (запросы отклоняются от исходной цели), hallucination propagation (ранние ошибки compounding через chain), tool misuse, prompt injection через adversarial retrieval results, memory poisoning, systemic amplification (итеративные циклы усиливают начальные ошибки). Mitigations: anchoring queries к исходной декомпозиции задачи, verification steps перед использованием retrieved facts, write-validation для episodic memory, retrieval budget controls (макс. tool calls, cost-based early stopping).

Технологический стек

Фреймворки и инструменты для Agentic RAG

LangGraph v1.1

Стандарт для stateful multi-agent приложений. Durable execution, checkpointing, human-in-the-loop. LangChain-экосистема, production-использование: Uber, LinkedIn, Klarna. Узлы: retrieval, critique, generation, tool-use. Рёбра: условные переходы на основе оценки качества.

A-RAG (arXiv:2602.03442)

Иерархические retrieval-интерфейсы: keyword search, semantic search, chunk read. Агент сам выбирает инструмент. ReAct-style loop с context tracking. Outperforms existing approaches с меньшим количеством retrieved tokens. Feb 2026.

CrewAI

Multi-agent фреймворк для ролевых команд. Flows (event-driven) + Crews (autonomous teams). Подходит для agentic RAG с разделением на planner, evidence-gatherer, critique, generator.

Self-RAG / CRAG

Self-RAG (Stanford, 2023): reflection-токены для оценки релевантности и достоверности. CRAG (Corrective RAG): автоматическая коррекция запроса при низком качестве retrieval. Обе техники встроены в LangGraph-граф.

Qdrant + Neo4j

Гибридный подход: Qdrant для semantic search, Neo4j для графовых запросов. Агент выбирает источник через иерархический интерфейс. LangChain GraphCypherQAChain + Qdrant retriever.

MCP-протокол

Model Context Protocol — стандарт подключения инструментов. MCP-серверы к 1С, CRM, ERP, SCADA/MES. Агент использует MCP как часть retrieval loop: retrieve → tool-use → observe → refine.

Техническая глубина Agentic RAG

От pipeline к циклу агента

Классический RAG — это линейный pipeline: query → embed → retrieve → generate. Agentic RAG — это цикл:

Retrieve → Reflect → Refine → Act

Агент не просто извлекает документы. Он:

1. Извлекает первые документы

2. Оценивает: достаточно ли информации? (Self-RAG reflection)

3. Если нет — формирует уточняющий запрос (Refine)

4. Извлекает заново, используя другой инструмент (Act)

5. Повторяет, пока не накопит достаточно доказательств

Пять production-паттернов

Self-RAG (Stanford, 2023): модель генерирует reflection-токены для каждого retrieved фрагмента: «relevant»/«irrelevant» и «supported»/«not_supported». Только релевантные и подтверждённые фрагменты используются для генерации ответа. Задержка выше, но качество — значительно.

Corrective RAG (CRAG): агент оценивает качество retrieved документов. Если score ниже порога — корректирует запрос (меняет стратегию: dense → BM25 → full text), извлекает заново. Если score высокий — передаёт в LLM. Автоматическая коррекция без ручного вмешательства.

Adaptive RAG: классификатор определяет сложность запроса. Простой → one-shot retrieval (быстро, дешево). Сложный → multi-step agentic loop (медленнее, но точнее). Adaptive routing — ключ к оптимизации cost/latency.

ReAct over documents: Reason → Act (retrieval/tool-call) → Observe → Repeat. Агент рассуждает, вызывает инструмент (поиск, API, SQL), анализирует результат, рассуждает дальше. Подход из A-RAG (arXiv:2602.03442, февраль 2026).

Query decomposition: сложный вопрос разбивается на подзапросы, каждый решается параллельно, результаты композятся. Подходит для multi-hop вопросов, требующих данных из нескольких источников.

A-RAG: иерархические retrieval-интерфейсы

A-RAG (Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces, arXiv:2602.03442, февраль 2026) — ключевое исследование 2026 года. Инсайт: bottleneck сместился с retrieval algorithm на reasoning architecture. Сильные reasoning-модели получают больше пользы от agent-friendly интерфейсов, чем от более сложных retrieval-алгоритмов.

A-RAG exposing three retrieval tools directly to the model:

  • Keyword Search: точный лексический поиск с snippet extraction — низкая задержка, высокая точность для имён и технических терминов
  • Semantic Search: dense vector similarity — широкое покрытие, лучше для концептуальных запросов
  • Chunk Read: полный доступ к содержимому документа — когда частичное извлечение оставляет неоднозначность

Агент реализует ReAct-style loop с context tracking для предотвращения redundant retrievals. Результаты на multi-hop QA benchmarks (HotpotQA, MuSiQue, 2WikiMultiHopQA, GraphRAG-Bench) показывают превосходство A-RAG с меньшим количеством retrieved tokens.

Управление рисками в production

Retrieval drift: anchoring каждого query к исходной декомпозиции задачи, а не только к последнему reasoning step. Explicit task state management — структурированное представление исходной цели и открытых подзадач.

Hallucination propagation: verification steps перед использованием retrieved facts. Self-RAG-style critique — агент оценивает релевантность и надёжность.

Memory poisoning: write-validation для episodic store, isolation между сессиями, periodic memory audits. Для high-stakes приложений — restriction of what classes of information can be written to persistent memory.

Cost-aware orchestration: retrieval budget controls — max tool calls per task, cost-based early stopping, router models для определения upfront, требует ли задача deep agentic search или достаточно one-shot retrieval.

Нужен Agentic RAG для ваших задач?

Опишите сценарии, где классический RAG не справляется — предложим архитектуру агента, граф состояний и план пилота.