Услуга

Аудит безопасности ИИ-систем

Полный цикл тестирования безопасности LLM, RAG и агентов: от red-teaming до настройки guardrails и политик доступа. Всё в вашем контуре.

  • OWASP Top 10 for LLM — полное покрытие
  • Prompt-инъекции: direct, indirect, jailbreak
  • Red-teaming агентов и tool-call abuse
  • Guardrails и DLP-политики
  • RBAC, SSO, audit log, journaling
  • Compliance-отчёт и дорожная карта

Что мы проверяем

Prompt-инъекции

Тестируем прямой (ввод пользователя) и косвенный (через документы/контекст) промпт-инжекшен. Автоматизированные гарпунные атаки, джейлбрейки, многошаговые цепочки.

RAG-уязвимости

Poisoning retrieval — подмена чанков в векторном хранилище. Data leakage через RAG-контекст. Манипуляция ранжированием через вредоносные документы.

Утечка данных

Извлечение PII, секретов, системных промптов. Data exfiltration через генерацию. Проверка на утечку между сессиями и пользователями.

Agentic AI-атаки

Tool-call abuse (вызов неразрешённых инструментов), privilege escalation, unsafe routing. MCP-безопасность, sandboxing агентских действий.

Доступ и аутентификация

Проверка RBAC-матрицы, SSO-интеграции (LDAP/SAML/OAuth), управления API-ключами, human-in-the-loop для опасных операций.

Compliance и регуляторика

Соответствие 152-ФЗ, GDPR, journaling всех LLM-запросов, audit trail, explainability решений, политики retention данных.

Как мы проводим аудит

Пять этапов от разведки до дорожной карты

  1. 01

    Разведка

    Собираем информацию о системе: архитектура, эндпоинты, используемые модели, промпты, подключённые инструменты и базы знаний.

  2. 02

    Автоматизированное тестирование

    Прогоняем OWASP-батареи: prompt-инъекции, джейлбрейки, RAG-poisoning, tool-call abuse. Используем Garak, PromptFoo, собственные сценарии.

  3. 03

    Ручное red-teaming

    Опытные инженеры моделируют атаки реального злоумышленника: многошаговые инъекции, социальная инженерия, обход guardrails.

  4. 04

    Аудит инфраструктуры

    Проверка настроек RBAC, сетевой доступ к моделям и векторным хранилищам, конфигурация DLP, журналирование, retention.

  5. 05

    Отчёт и план исправлений

    Документируем все уязвимости с CVSS-оценкой, severity, PoC. Формируем дорожную карту: quick wins и архитектурные изменения.

OWASP Top 10 for LLM

Покрытие LLM01–LLM10 с собственными сценариями

КатегорияOWASP Top 10 for LLMЧто проверяемSeverity
Prompt Injection LLM01 Прямые/косвенные инъекции, джейлбрейки Critical
Sensitive Disclosure LLM06 Утечка PII, секретов, системных промптов High
Supply Chain LLM05 Уязвимости в MCP, плагинах, расширениях High
Permission Issues LLM08 Excessive agency, tool-call abuse High
Data Poisoning LLM03 RAG-poisoning, манипуляция чанками Medium
Denial of Service LLM04 Context window overflow, resource exhaustion Medium

Инструменты и методология

Автоматические сканеры

Garak, PromptFoo, Counterfit — автоматизированные сканеры prompt-инъекций и джейлбрейков.

Red-teaming

Симуляция атак сценариями OWASP и CWE. Моделирование поведения APT-групп.

Guardrails

nvidia/NeMo Guardrails, Guardrails AI — настройка и test coverage политик безопасности.

DLP-политики

DLP-сканирование ответов на PII, секреты, конфиденциальную лексику. Журналирование.

Infrastructure security

Проверка MCP-серверов, OAuth-токенов, API-gateway, сетевого периметра.

Compliance-отчёт

Документирование уязвимостей с PoC, remediation, повторное тестирование.

ИИ-безопасность — не традиционный пентест

В LLM уязвимость не падает в 500-й статус, а проявляется в неверном, но связном ответе. Модель может быть взломана через загруженный документ (indirect injection) или через промпт, которого нет в логах. Мы используем специализированные LLM-фреймворки и методологию OWASP GenAI.

Методология: OWASP GenAI и red-teaming

Чем LLM-аудит отличается от классического пентеста

Классический пентест проверяет код, конфигурацию и сеть. LLM-аудит проверяет поведение модели: её реакцию на вредоносные промпты, способность удерживать системные инструкции, устойчивость к манипуляции через контекст. Модель — интерпретатор, и любое входное данное (промпт, документ, картинка, аудио) может содержать скрытые инструкции.

Ключевые отличия:

  • OWASP GenAI Top 10 — 10 уникальных классов угроз, отличных от традиционного веб-пентеста.
  • Direct vs Indirect Injection: вторая категория — атака через документ, который загружает пользователь (например, резюме с инъекцией).
  • Multi-step jailbreaks: цепочки из 5–10 сообщений, где каждое следующее строится на предыдущем ответе.
  • Model extraction: восстановление системного промпта через атаку на разделение инструкций.

Мы проводим аудит в вашем контуре: модель, данные и трафик не покидают периметр. Все тестовые сценарии выполняются локально, никакие данные не отправляются во внешние API.

Результат — не просто список уязвимостей, а рабочие guardrails, DLP-политики и процедуры, снижающие риски до приемлемого уровня.

Проверить ИИ-систему на безопасность?

Опишите вашу ИИ-систему: LLM, RAG, агенты, MCP — проведём полный аудит безопасности в вашем контуре.