Аудит безопасности ИИ-систем
Полный цикл тестирования безопасности LLM, RAG и агентов: от red-teaming до настройки guardrails и политик доступа. Всё в вашем контуре.
- OWASP Top 10 for LLM — полное покрытие
- Prompt-инъекции: direct, indirect, jailbreak
- Red-teaming агентов и tool-call abuse
- Guardrails и DLP-политики
- RBAC, SSO, audit log, journaling
- Compliance-отчёт и дорожная карта
Что мы проверяем
Prompt-инъекции
Тестируем прямой (ввод пользователя) и косвенный (через документы/контекст) промпт-инжекшен. Автоматизированные гарпунные атаки, джейлбрейки, многошаговые цепочки.
RAG-уязвимости
Poisoning retrieval — подмена чанков в векторном хранилище. Data leakage через RAG-контекст. Манипуляция ранжированием через вредоносные документы.
Утечка данных
Извлечение PII, секретов, системных промптов. Data exfiltration через генерацию. Проверка на утечку между сессиями и пользователями.
Agentic AI-атаки
Tool-call abuse (вызов неразрешённых инструментов), privilege escalation, unsafe routing. MCP-безопасность, sandboxing агентских действий.
Доступ и аутентификация
Проверка RBAC-матрицы, SSO-интеграции (LDAP/SAML/OAuth), управления API-ключами, human-in-the-loop для опасных операций.
Compliance и регуляторика
Соответствие 152-ФЗ, GDPR, journaling всех LLM-запросов, audit trail, explainability решений, политики retention данных.
Как мы проводим аудит
Пять этапов от разведки до дорожной карты
-
01
Разведка
Собираем информацию о системе: архитектура, эндпоинты, используемые модели, промпты, подключённые инструменты и базы знаний.
-
02
Автоматизированное тестирование
Прогоняем OWASP-батареи: prompt-инъекции, джейлбрейки, RAG-poisoning, tool-call abuse. Используем Garak, PromptFoo, собственные сценарии.
-
03
Ручное red-teaming
Опытные инженеры моделируют атаки реального злоумышленника: многошаговые инъекции, социальная инженерия, обход guardrails.
-
04
Аудит инфраструктуры
Проверка настроек RBAC, сетевой доступ к моделям и векторным хранилищам, конфигурация DLP, журналирование, retention.
-
05
Отчёт и план исправлений
Документируем все уязвимости с CVSS-оценкой, severity, PoC. Формируем дорожную карту: quick wins и архитектурные изменения.
OWASP Top 10 for LLM
Покрытие LLM01–LLM10 с собственными сценариями
| Категория | OWASP Top 10 for LLM | Что проверяем | Severity |
|---|---|---|---|
| Prompt Injection | LLM01 | Прямые/косвенные инъекции, джейлбрейки | Critical |
| Sensitive Disclosure | LLM06 | Утечка PII, секретов, системных промптов | High |
| Supply Chain | LLM05 | Уязвимости в MCP, плагинах, расширениях | High |
| Permission Issues | LLM08 | Excessive agency, tool-call abuse | High |
| Data Poisoning | LLM03 | RAG-poisoning, манипуляция чанками | Medium |
| Denial of Service | LLM04 | Context window overflow, resource exhaustion | Medium |
Инструменты и методология
Автоматические сканеры
Garak, PromptFoo, Counterfit — автоматизированные сканеры prompt-инъекций и джейлбрейков.
Red-teaming
Симуляция атак сценариями OWASP и CWE. Моделирование поведения APT-групп.
Guardrails
nvidia/NeMo Guardrails, Guardrails AI — настройка и test coverage политик безопасности.
DLP-политики
DLP-сканирование ответов на PII, секреты, конфиденциальную лексику. Журналирование.
Infrastructure security
Проверка MCP-серверов, OAuth-токенов, API-gateway, сетевого периметра.
Compliance-отчёт
Документирование уязвимостей с PoC, remediation, повторное тестирование.
ИИ-безопасность — не традиционный пентест
В LLM уязвимость не падает в 500-й статус, а проявляется в неверном, но связном ответе. Модель может быть взломана через загруженный документ (indirect injection) или через промпт, которого нет в логах. Мы используем специализированные LLM-фреймворки и методологию OWASP GenAI.
Методология: OWASP GenAI и red-teaming
Чем LLM-аудит отличается от классического пентеста
Классический пентест проверяет код, конфигурацию и сеть. LLM-аудит проверяет поведение модели: её реакцию на вредоносные промпты, способность удерживать системные инструкции, устойчивость к манипуляции через контекст. Модель — интерпретатор, и любое входное данное (промпт, документ, картинка, аудио) может содержать скрытые инструкции.
Ключевые отличия:
- OWASP GenAI Top 10 — 10 уникальных классов угроз, отличных от традиционного веб-пентеста.
- Direct vs Indirect Injection: вторая категория — атака через документ, который загружает пользователь (например, резюме с инъекцией).
- Multi-step jailbreaks: цепочки из 5–10 сообщений, где каждое следующее строится на предыдущем ответе.
- Model extraction: восстановление системного промпта через атаку на разделение инструкций.
Мы проводим аудит в вашем контуре: модель, данные и трафик не покидают периметр. Все тестовые сценарии выполняются локально, никакие данные не отправляются во внешние API.
Результат — не просто список уязвимостей, а рабочие guardrails, DLP-политики и процедуры, снижающие риски до приемлемого уровня.
Проверить ИИ-систему на безопасность?
Опишите вашу ИИ-систему: LLM, RAG, агенты, MCP — проведём полный аудит безопасности в вашем контуре.