Аудит безопасности ИИ-систем
Проводим полный цикл тестирования безопасности частных LLM, RAG и агентов: от автоматизированного сканирования OWASP Top 10 до ручного red-teaming с моделированием реальных атак. Проверяем prompt-инъекции, RAG-poisoning, безопасность MCP-инструментов, memory poisoning и политики доступа. Результат - не формальная бумага, а отчёт с PoC, CVSS-оценками и дорожной картой исправлений. Всё в вашем контуре.
- OWASP Top 10 for LLM (2025) + Agentic Top 10 (2026) - полное покрытие
- Prompt-инъекции всех типов: direct, indirect через документы, multi-step jailbreaks
- RAG и memory poisoning: MINJA-атаки, инверсия эмбеддингов, CorruptRAG
- Agentic AI: tool-call abuse, MCP tool poisoning, EchoLeak-класс zero-click
- RBAC, SSO, audit log, journaling, DLP: проверка матрицы доступов
- Отчёт: CVSS, PoC, severity, дорожная карта исправлений, ретест
Что мы проверяем
Шесть ключевых поверхностей атаки современных ИИ-систем
Prompt-инъекции и джейлбрейки
Тестируем прямые инъекции (пользовательский ввод), косвенные (через PDF, DOCX, веб-страницы), многошаговые цепочки и jailbreak-атаки с обходом guardrails. В 2026 Microsoft зафиксировала prompt injection → RCE в Semantic Kernel (CVE-2026-25592, CVE-2026-26030), а EchoLeak (CVE-2025-32711, CVSS 9.3) стал первым zero-click взломом AI-агента через письмо.
RAG и векторные уязвимости
Poisoning retrieval - подмена чанков через вредоносные документы. CorruptRAG (2025): одного текста достаточно для подмены ответа. Memory poisoning: MINJA-атаки с 95% успеха инъекции, 70 - 84% эффективности (Agent Security Bench, 2026). Инверсия эмбеддингов - восстановление данных из векторов. LLM04 + LLM08.
Утечка данных и model inversion
Извлечение PII, API-ключей, системных промптов через целенаправленные запросы. Model inversion: восстановление данных из файнтюнинг-выборки через API без доступа к весам. В 2026 исследователи показали утечку фрагментов реальных customer-записей из дообученных LLM.
Agentic AI и tool-безопасность
Tool-call abuse: модель вызывает неразрешённые инструменты или передаёт опасные параметры. MCP tool poisoning - вредоносные инструкции в дескрипторах. CrewAI: 4 критические CVE (2026). OpenClaw: multi-vector кризис безопасности (180K+ звёзд). ASI01 - ASI10 по OWASP.
Инфраструктурная безопасность
Проверка сетевого доступа к API инференса и векторным БД. DLP-политики: PII-фильтры, стоп-слова, регекс-шаблоны. Журналирование LLM-запросов, интеграция с SIEM. Проверка MCP-серверов на CVE-2025-6514 (RCE, CVSS 9.6). Тестирование изоляции тенантов.
Compliance и регуляторика
152-ФЗ (персональные данные), GDPR/EU AI Act (август 2026 - enforcement high-risk систем). OWASP LLM Security Checklist, NIST AI RMF. Explainability решений. Готовим документы для внутреннего аудита, регулятора или страховой.
Как мы проводим аудит
Пять этапов от разведки до проверки исправлений
-
01
Разведка и сбор информации
Изучаем архитектуру: модели, inference-движок, промпты, MCP-инструменты, векторное хранилище, агентная память (эпизодическая, семантическая, tool state), матрица RBAC, источники RAG. Составляем карту поверхности атаки - включая каналы indirect injection.
-
02
Автоматизированное тестирование
Garak - фаззинг prompt-инъекций и джейлбрейков (50+ probe-ов). Promptfoo - CI/CD-регрессионное тестирование, 30 000+ пользователей. PyRIT (Microsoft) - многошаговые атаки с памятью и контекстом. Собственные сценарии под специфику заказчика и его фреймворков.
-
03
Ручное red-teaming
Инженеры моделируют реального злоумышленника: многошаговые инъекции через цепочки документов, обход guardrails с обфускацией (ROT13, ASCII smuggling, Unicode substitution), атаки на tool-call цепочки, memory poisoning через долговременную память агента.
-
04
Аудит инфраструктуры и политик
Проверка DLP, RBAC, SSO/LDAP. Анализ журналов - следы эксплуатации? Тестирование retention и audit trail. MCP-серверы: CVE-2025-6514 и подобные. Model inversion: насколько восстанавливаются данные через запросы к дообученной модели.
-
05
Отчёт, исправление, ретест
Документируем уязвимости: CVSS, severity, PoC с воспроизводимым сценарием. Дорожная карта: quick wins и архитектурные изменения. Готовые политики NeMo Guardrails, DLP-правила. Повторное тестирование - подтверждаем, что уязвимости закрыты.
Покрытие OWASP Top 10 for LLM Applications (2025)
Каждая категория - с автоматизированными и ручными сценариями, адаптированными под инфраструктуру заказчика
| ID | Категория | Механика атаки | Severity |
|---|---|---|---|
| LLM01 | Prompt Injection | Direct / Indirect / Multi-step jailbreaks | Critical |
| LLM02 | Sensitive Information Disclosure | Утечка PII, секретов, системных промптов | Critical |
| LLM03 | Supply Chain | Уязвимости MCP, плагинов, PyPI-пакетов | High |
| LLM04 | Data & Model Poisoning | RAG-poisoning, порча обучающих данных | High |
| LLM05 | Improper Output Handling | Небезопасная обработка ответа модели | High |
| LLM06 | Excessive Agency | Автономия без ограничений, tool-call abuse | Critical |
| LLM07 | System Prompt Leakage | Экстракция системных инструкций | High |
| LLM08 | Vector & Embedding Weakness | Инверсия эмбеддингов, poisoning векторной БД | High |
| LLM09 | Misinformation | Галлюцинации, overreliance без проверки | Medium |
| LLM10 | Unbounded Consumption | DoS, resource exhaustion, cost-атаки | Medium |
Методология: от OWASP до реальных эксплойтов
Чем LLM-аудит отличается от классического пентеста
Классический пентест проверяет код, конфигурацию и сеть на предсказуемые failure modes. LLM-аудит проверяет поведение модели как интерпретатора: её реакцию на вредоносные промпты, способность удерживать системные инструкции под давлением, устойчивость к манипуляции через данные.
Ключевые отличия:
- Модель - интерпретатор, а не детерминированная программа. Один и тот же промпт даёт разный результат. Уязвимость проявляется в тексте, а не в HTTP-статусе.
- Indirect injection - атака без прямого доступа. Инструкции в документе (резюме, PDF, веб-страница) выполняются моделью при обработке. EchoLeak (CVE-2025-32711, CVSS 9.3) - первый zero-click взлом AI-агента через скрытую инъекцию в письме Microsoft 365 Copilot.
- Multi-step jailbreaks. Цепочки из 5 - 10 сообщений с обфускацией (ROT13, Unicode substitution, ASCII smuggling), где каждое следующее строится на предыдущем ответе.
- Memory poisoning - атака на долговременную память агента. MINJA (2026): 95% успех инъекции, 70 - 84% эффективность. Злоумышленник портит эпизодическую или семантическую память, и агент действует на ложных данных во всех последующих сессиях.
- RAG poisoning - атака на знания. Один вредоносный чанк меняет ответы на целый класс запросов. CorruptRAG: достаточно одного текста. 5 poisoned documents дают 90% over 90% reliability.
- Model inversion - восстановление данных из модели. Файнтюнинг на клиентских данных создаёт queryable-базу PII без традиционного access control.
Prompt injection → RCE: как это работает в 2026
Microsoft Security Response Center в мае 2026 опубликовал разбор CVE-2026-25592 и CVE-2026-26030 в Semantic Kernel. Цепочка атаки:
1. Пользователь вводит промпт с инъекцией - через поле ввода или загруженный документ.
2. Модель вызывает Search Plugin с параметрами, содержащими инъекцию.
3. Параметры попадают в eval() - лямбда-фильтр через unsafe string interpolation.
4. Payload обходит AST-валидатор - blocklist проверяет eval, exec, open, но не проверяет __subclasses__, BuiltinImporter, load_module, system.
5. Результат: os.system('calc.exe') - произвольный код на хосте.
Это не теория. CrewAI - 4 критические CVE (апрель 2026) с той же механикой: prompt injection → RCE → SSRF → file read. GitHub Copilot - CVE-2025-53773 (CVSS 9.6). Вывод: недостаточно проверить, блокирует ли guardrails слово «ignore». Нужно тестировать всю цепочку: промпт → tool-call → параметры → execution context.
RAG и память: где живёт poisoning
1. RAG Poisoning (LLM04). Злоумышленник публикует документ, семантически оптимизированный под целевой запрос. При индексации документ попадает в топ-K и подменяет ответ. Каналы: Confluence, общие папки, веб-краулеры. Проверяем: источники, provenance, права записи.
2. Embedding Inversion (LLM08). Из вектора частично восстанавливается текст - критично для коротких чанков с PII.
3. Memory Poisoning (MINJA, AgentPoison). Агенты с долговременной памятью (Mem0, Zep, LangGraph persistence) уязвимы к инъекции ложных «воспоминаний». Agent Security Bench: 84% успех атак в среднем по 27 комбинациям attack/defense.
Agentic AI: OWASP Top 10 2026 и key инциденты
OWASP Agentic Top 10 (декабрь 2025, Black Hat Europe) вводит принцип least agency - агент получает минимум автономии. Ключевые ASI, которые мы проверяем:
- ASI01 Agent Goal Hijack: перенаправление целей через инъекцию.
- ASI02 Tool Misuse & Exploitation: вызов неразрешённых инструментов.
- ASI04 Agentic Supply Chain: вредоносные MCP-серверы и tool-дескрипторы. OpenClaw (2025 - 2026): multi-vector кризис безопасности фреймворка с 180K+ звёзд.
- ASI06 Memory & Context Poisoning: порча памяти агента, манипуляция историей.
- ASI08 Cascading Failures: лавина ошибок при автономных цепочках.
88% организаций, разворачивающих AI-агентов, уже столкнулись с инцидентами безопасности - но лишь 6% бюджетов ИБ выделено на agentic AI-риски (Gravitee 2026).
Что в итоге получает заказчик
1. Исполнительное резюме для руководства: ключевые риски, бизнес-влияние, приоритеты.
2. Технический отчёт: все уязвимости с CVSS, PoC, шагами воспроизведения.
3. Карта покрытия OWASP: LLM01 - LLM10 и ASI01 - ASI10 с процентом покрытия.
4. Рекомендации: quick wins (настройка guardrails за часы) и архитектурные изменения.
5. Настроенные политики: NeMo Guardrails (Colang DSL), DLP-правила, регекс-фильтры.
6. Повторное тестирование: подтверждение закрытия уязвимостей.
Весь аудит - в вашем контуре. Ни один промпт, ни один фрагмент данных не покидает периметр. Для air-gap сред работаем полностью офлайн.
Почему ИИ-безопасность - не классический пентест
В LLM уязвимость не падает в 500-й статус, а проявляется в связном, но ложном или опасном ответе. Модель может быть скомпрометирована через загруженный PDF (indirect injection), через tool-дескриптор MCP-сервера или через вредоносный чанк в векторной БД - без единой строчки эксплойта в классическом понимании. В 2026 Microsoft показала prompt injection → RCE в Semantic Kernel. EchoLeak стал первым zero-click взломом AI-агента - через скрытый текст в письме. Мы используем специализированные LLM-фреймворки и методологию OWASP GenAI, а не адаптированный веб-пентест.
Инструменты и методология
Стек для аудита, который мы применяем
Автоматические сканеры
Garak - фаззинг prompt-инъекций (50+ probe-ов). Promptfoo - CI/CD-интеграция, 30 000+ пользователей. PyRIT (Microsoft) - многошаговые атаки с памятью. DeepTeam (Confident AI) - 40+ типов уязвимостей, 10+ методов атак.
Red-teaming сценарии
OWASP GenAI Top 10 + Agentic Top 10 (ASI01 - ASI10). Техники APT в контексте ИИ. MINJA - тестирование memory poisoning. EchoLeak-класс - zero-click через email/документы. Обфускация: ROT13, Unicode, ASCII smuggling.
Guardrails-тестирование
NeMo Guardrails (NVIDIA) - bypass Colang DSL политик. LLM Guard (Protect AI) - входные/выходные сканеры. LlamaFirewall (Meta) - снижение атак с 17.6% до 1.7% на AgentDojo. Spotlighting (Microsoft) - снижение injection с 50% до <2%.
DLP и PII-фильтры
Сканирование ответов на утечку персональных данных, API-ключей, внутренних хостов. Проверка маскирования/unmasking PII в RAG. Model inversion: насколько восстанавливаются training-данные через API.
Инфраструктурный аудит
MCP-серверы: CVE-2025-6514 (RCE, CVSS 9.6). OAuth-токены, API-gateway, сетевой периметр. Изоляция тенантов в Qdrant/Milvus. Agent memory stores: Mem0, Zep, LangGraph persistence.
Compliance-отчёт
Executive summary + технические детали + CVSS + PoC + remediation. Карта покрытия OWASP LLM01 - LLM10 и ASI01 - ASI10. Готово для внутреннего аудита, регулятора, страховой.
Проверить ИИ-систему на безопасность?
Опишите вашу систему: LLM, RAG, агенты, MCP-инструменты, векторные хранилища - проведём полный аудит безопасности в вашем контуре.