Аудит безопасности ИИ-систем

Что мы проверяем

Шесть ключевых поверхностей атаки современных ИИ-систем

Prompt-инъекции и джейлбрейки

Тестируем прямые инъекции (пользовательский ввод), косвенные (через PDF, DOCX, веб-страницы), многошаговые цепочки и jailbreak-атаки с обходом guardrails. В 2026 Microsoft зафиксировала prompt injection → RCE в Semantic Kernel (CVE-2026-25592, CVE-2026-26030), а EchoLeak (CVE-2025-32711, CVSS 9.3) стал первым zero-click взломом AI-агента через письмо.

RAG и векторные уязвимости

Poisoning retrieval - подмена чанков через вредоносные документы. CorruptRAG (2025): одного текста достаточно для подмены ответа. Memory poisoning: MINJA-атаки с 95% успеха инъекции, 70 - 84% эффективности (Agent Security Bench, 2026). Инверсия эмбеддингов - восстановление данных из векторов. LLM04 + LLM08.

Утечка данных и model inversion

Извлечение PII, API-ключей, системных промптов через целенаправленные запросы. Model inversion: восстановление данных из файнтюнинг-выборки через API без доступа к весам. В 2026 исследователи показали утечку фрагментов реальных customer-записей из дообученных LLM.

Agentic AI и tool-безопасность

Tool-call abuse: модель вызывает неразрешённые инструменты или передаёт опасные параметры. MCP tool poisoning - вредоносные инструкции в дескрипторах. CrewAI: 4 критические CVE (2026). OpenClaw: multi-vector кризис безопасности (180K+ звёзд). ASI01 - ASI10 по OWASP.

Инфраструктурная безопасность

Проверка сетевого доступа к API инференса и векторным БД. DLP-политики: PII-фильтры, стоп-слова, регекс-шаблоны. Журналирование LLM-запросов, интеграция с SIEM. Проверка MCP-серверов на CVE-2025-6514 (RCE, CVSS 9.6). Тестирование изоляции тенантов.

Compliance и регуляторика

152-ФЗ (персональные данные), GDPR/EU AI Act (август 2026 - enforcement high-risk систем). OWASP LLM Security Checklist, NIST AI RMF. Explainability решений. Готовим документы для внутреннего аудита, регулятора или страховой.

Как мы проводим аудит

Пять этапов от разведки до проверки исправлений

01

Разведка и сбор информации

Изучаем архитектуру: модели, inference-движок, промпты, MCP-инструменты, векторное хранилище, агентная память (эпизодическая, семантическая, tool state), матрица RBAC, источники RAG. Составляем карту поверхности атаки - включая каналы indirect injection.
02

Автоматизированное тестирование

Garak - фаззинг prompt-инъекций и джейлбрейков (50+ probe-ов). Promptfoo - CI/CD-регрессионное тестирование, 30 000+ пользователей. PyRIT (Microsoft) - многошаговые атаки с памятью и контекстом. Собственные сценарии под специфику заказчика и его фреймворков.
03

Ручное red-teaming

Инженеры моделируют реального злоумышленника: многошаговые инъекции через цепочки документов, обход guardrails с обфускацией (ROT13, ASCII smuggling, Unicode substitution), атаки на tool-call цепочки, memory poisoning через долговременную память агента.
04

Аудит инфраструктуры и политик

Проверка DLP, RBAC, SSO/LDAP. Анализ журналов - следы эксплуатации? Тестирование retention и audit trail. MCP-серверы: CVE-2025-6514 и подобные. Model inversion: насколько восстанавливаются данные через запросы к дообученной модели.
05

Отчёт, исправление, ретест

Документируем уязвимости: CVSS, severity, PoC с воспроизводимым сценарием. Дорожная карта: quick wins и архитектурные изменения. Готовые политики NeMo Guardrails, DLP-правила. Повторное тестирование - подтверждаем, что уязвимости закрыты.

Покрытие OWASP Top 10 for LLM Applications (2025)

Каждая категория - с автоматизированными и ручными сценариями, адаптированными под инфраструктуру заказчика

ID	Категория	Механика атаки	Severity
LLM01	Prompt Injection	Direct / Indirect / Multi-step jailbreaks	Critical
LLM02	Sensitive Information Disclosure	Утечка PII, секретов, системных промптов	Critical
LLM03	Supply Chain	Уязвимости MCP, плагинов, PyPI-пакетов	High
LLM04	Data & Model Poisoning	RAG-poisoning, порча обучающих данных	High
LLM05	Improper Output Handling	Небезопасная обработка ответа модели	High
LLM06	Excessive Agency	Автономия без ограничений, tool-call abuse	Critical
LLM07	System Prompt Leakage	Экстракция системных инструкций	High
LLM08	Vector & Embedding Weakness	Инверсия эмбеддингов, poisoning векторной БД	High
LLM09	Misinformation	Галлюцинации, overreliance без проверки	Medium
LLM10	Unbounded Consumption	DoS, resource exhaustion, cost-атаки	Medium

Методология: от OWASP до реальных эксплойтов

Чем LLM-аудит отличается от классического пентеста

Классический пентест проверяет код, конфигурацию и сеть на предсказуемые failure modes. LLM-аудит проверяет поведение модели как интерпретатора: её реакцию на вредоносные промпты, способность удерживать системные инструкции под давлением, устойчивость к манипуляции через данные.

Ключевые отличия:

Модель - интерпретатор, а не детерминированная программа. Один и тот же промпт даёт разный результат. Уязвимость проявляется в тексте, а не в HTTP-статусе.
Indirect injection - атака без прямого доступа. Инструкции в документе (резюме, PDF, веб-страница) выполняются моделью при обработке. EchoLeak (CVE-2025-32711, CVSS 9.3) - первый zero-click взлом AI-агента через скрытую инъекцию в письме Microsoft 365 Copilot.
Multi-step jailbreaks. Цепочки из 5 - 10 сообщений с обфускацией (ROT13, Unicode substitution, ASCII smuggling), где каждое следующее строится на предыдущем ответе.
Memory poisoning - атака на долговременную память агента. MINJA (2026): 95% успех инъекции, 70 - 84% эффективность. Злоумышленник портит эпизодическую или семантическую память, и агент действует на ложных данных во всех последующих сессиях.
RAG poisoning - атака на знания. Один вредоносный чанк меняет ответы на целый класс запросов. CorruptRAG: достаточно одного текста. 5 poisoned documents дают 90% over 90% reliability.
Model inversion - восстановление данных из модели. Файнтюнинг на клиентских данных создаёт queryable-базу PII без традиционного access control.

Prompt injection → RCE: как это работает в 2026

Microsoft Security Response Center в мае 2026 опубликовал разбор CVE-2026-25592 и CVE-2026-26030 в Semantic Kernel. Цепочка атаки:

1. Пользователь вводит промпт с инъекцией - через поле ввода или загруженный документ.

2. Модель вызывает Search Plugin с параметрами, содержащими инъекцию.

3. Параметры попадают в eval() - лямбда-фильтр через unsafe string interpolation.

4. Payload обходит AST-валидатор - blocklist проверяет eval, exec, open, но не проверяет __subclasses__, BuiltinImporter, load_module, system.

5. Результат: os.system('calc.exe') - произвольный код на хосте.

Это не теория. CrewAI - 4 критические CVE (апрель 2026) с той же механикой: prompt injection → RCE → SSRF → file read. GitHub Copilot - CVE-2025-53773 (CVSS 9.6). Вывод: недостаточно проверить, блокирует ли guardrails слово «ignore». Нужно тестировать всю цепочку: промпт → tool-call → параметры → execution context.

RAG и память: где живёт poisoning

1. RAG Poisoning (LLM04). Злоумышленник публикует документ, семантически оптимизированный под целевой запрос. При индексации документ попадает в топ-K и подменяет ответ. Каналы: Confluence, общие папки, веб-краулеры. Проверяем: источники, provenance, права записи.

2. Embedding Inversion (LLM08). Из вектора частично восстанавливается текст - критично для коротких чанков с PII.

3. Memory Poisoning (MINJA, AgentPoison). Агенты с долговременной памятью (Mem0, Zep, LangGraph persistence) уязвимы к инъекции ложных «воспоминаний». Agent Security Bench: 84% успех атак в среднем по 27 комбинациям attack/defense.

Agentic AI: OWASP Top 10 2026 и key инциденты

OWASP Agentic Top 10 (декабрь 2025, Black Hat Europe) вводит принцип least agency - агент получает минимум автономии. Ключевые ASI, которые мы проверяем:

ASI01 Agent Goal Hijack: перенаправление целей через инъекцию.
ASI02 Tool Misuse & Exploitation: вызов неразрешённых инструментов.
ASI04 Agentic Supply Chain: вредоносные MCP-серверы и tool-дескрипторы. OpenClaw (2025 - 2026): multi-vector кризис безопасности фреймворка с 180K+ звёзд.
ASI06 Memory & Context Poisoning: порча памяти агента, манипуляция историей.
ASI08 Cascading Failures: лавина ошибок при автономных цепочках.

88% организаций, разворачивающих AI-агентов, уже столкнулись с инцидентами безопасности - но лишь 6% бюджетов ИБ выделено на agentic AI-риски (Gravitee 2026).

Что в итоге получает заказчик

1. Исполнительное резюме для руководства: ключевые риски, бизнес-влияние, приоритеты.

2. Технический отчёт: все уязвимости с CVSS, PoC, шагами воспроизведения.

3. Карта покрытия OWASP: LLM01 - LLM10 и ASI01 - ASI10 с процентом покрытия.

4. Рекомендации: quick wins (настройка guardrails за часы) и архитектурные изменения.

5. Настроенные политики: NeMo Guardrails (Colang DSL), DLP-правила, регекс-фильтры.

6. Повторное тестирование: подтверждение закрытия уязвимостей.

Весь аудит - в вашем контуре. Ни один промпт, ни один фрагмент данных не покидает периметр. Для air-gap сред работаем полностью офлайн.

Почему ИИ-безопасность - не классический пентест

В LLM уязвимость не падает в 500-й статус, а проявляется в связном, но ложном или опасном ответе. Модель может быть скомпрометирована через загруженный PDF (indirect injection), через tool-дескриптор MCP-сервера или через вредоносный чанк в векторной БД - без единой строчки эксплойта в классическом понимании. В 2026 Microsoft показала prompt injection → RCE в Semantic Kernel. EchoLeak стал первым zero-click взломом AI-агента - через скрытый текст в письме. Мы используем специализированные LLM-фреймворки и методологию OWASP GenAI, а не адаптированный веб-пентест.

Инструменты и методология

Стек для аудита, который мы применяем

Автоматические сканеры

Garak - фаззинг prompt-инъекций (50+ probe-ов). Promptfoo - CI/CD-интеграция, 30 000+ пользователей. PyRIT (Microsoft) - многошаговые атаки с памятью. DeepTeam (Confident AI) - 40+ типов уязвимостей, 10+ методов атак.

Red-teaming сценарии

OWASP GenAI Top 10 + Agentic Top 10 (ASI01 - ASI10). Техники APT в контексте ИИ. MINJA - тестирование memory poisoning. EchoLeak-класс - zero-click через email/документы. Обфускация: ROT13, Unicode, ASCII smuggling.

Guardrails-тестирование

NeMo Guardrails (NVIDIA) - bypass Colang DSL политик. LLM Guard (Protect AI) - входные/выходные сканеры. LlamaFirewall (Meta) - снижение атак с 17.6% до 1.7% на AgentDojo. Spotlighting (Microsoft) - снижение injection с 50% до <2%.

DLP и PII-фильтры

Сканирование ответов на утечку персональных данных, API-ключей, внутренних хостов. Проверка маскирования/unmasking PII в RAG. Model inversion: насколько восстанавливаются training-данные через API.

Инфраструктурный аудит

MCP-серверы: CVE-2025-6514 (RCE, CVSS 9.6). OAuth-токены, API-gateway, сетевой периметр. Изоляция тенантов в Qdrant/Milvus. Agent memory stores: Mem0, Zep, LangGraph persistence.

Compliance-отчёт

Executive summary + технические детали + CVSS + PoC + remediation. Карта покрытия OWASP LLM01 - LLM10 и ASI01 - ASI10. Готово для внутреннего аудита, регулятора, страховой.

Каталог услуг

Другие услуги

Машинное зрение Системы машинного зрения для промышленности: контроль качества, дефектоскопия, сортировка, изме… ИИ-боты и агенты Проектируем и внедряем интеллектуальных ботов в Telegram, WhatsApp, корпоративные порталы и веб… Видеоаналитика и безопасность на объекте Системы интеллектуальной видеоаналитики для промышленных объектов, складов и периметров: детекц… Сортировка и классификация продукции на конвейере Системы автоматической сортировки и классификации продукции на конвейере: распознавание по визу…

Проверить ИИ-систему на безопасность?

Опишите вашу систему: LLM, RAG, агенты, MCP-инструменты, векторные хранилища - проведём полный аудит безопасности в вашем контуре.

Заказать аудит