Исследование
1 мая 2026 · 10 мин чтения · AI Platforms

DeepSeek-V4: миллион токенов, гибридное внимание и агентный поиск

Релиз 24 апреля 2026 года: две MoE-модели с нативным 1M контекстом. V4-Pro (1.6T/49B active) и V4-Flash (284B/13B active). Гибридное внимание CSA+HCA, manifold-constrained hyper-connections, оптимизатор Muon. И agentic search - модель сама ищет и добирает контекст.

  • DeepSeek
  • LLM
  • long context
  • agents
  • RAG
  • open weights
  • MoE
  • agentic search
  • MIT

Почему 1M токенов - это не просто цифра

Длинный контекст долго был маркетинговой метрикой. Модели заявляли 128K, 256K, потом и 1M токенов - но на практике окно за 64K либо обходилось в состояние, либо давало «потерю середины» (lost-in-the-middle), когда модель игнорирует информацию из центра контекста.

DeepSeek-V4 - первый релиз, где миллион токенов выглядит не как галочка, а как инженерно осмысленная возможность. Ключевое достижение не в том, что окно большое, а в том, что оно эффективное: в режиме 1M контекста V4-Pro требует только 27% вычислений single-token inference и 10% KV-cache по сравнению с DeepSeek-V3.2. Это не «бесплатно», но это практично.

Для бизнеса это важный сигнал. Если система не умеет отбирать релевантные фрагменты, хранить рабочее состояние и вызывать инструменты в нужный момент, гигантский контекст превращается в дорогой способ носить лишние токены. DeepSeek-V4 интересен именно тем, что показывает: длинный контекст, retrieval и tool-use начинают складываться в одну инженерную систему.

Технический отчёт: DeepSeek-V4.pdf на Hugging Face. Релиз: api-docs.deepseek.com.

Ключевые инженерные инновации

CSA: Compressed Sparse Attention

Сжимает KV-историю, затем выбирает только наиболее полезные блоки через sparse-поиск. Не все токены равны - модель учится отличать важное от шума.

HCA: Heavily Compressed Attention

Ещё агрессивнее сжимает историю для сверхдлинных дистанций. Последние токены - под скользящим окном, свежий контекст не теряется.

mHC: стабильность триллионной сети

Manifold-Constrained Hyper-Connections. Улучшенные residual-связи, которые не дают сигналу деградировать в очень глубокой сети. Не второстепенная деталь.

Muon вместо AdamW

Отдельный оптимизатор для значительной части параметров. Ускоряет сходимость и удерживает обучение в устойчивом режиме на trillion-scale.

Agentic search

В thinking-режиме модель итеративно вызывает search и fetch. Не получает статичный кусок RAG - сама решает, что искать и когда остановиться.

MIT license, открытые веса

V4-Pro и V4-Flash доступны на Hugging Face под MIT. API совместим с OpenAI ChatCompletions и Anthropic. Flash от $0.14/M input токенов.

Архитектура: как это работает

Гибридное внимание - не один трюк, а два

CSA и HCA - это не косметические оптимизации, а основа того, почему 1M токенов становится практичным. CSA сжимает KV-историю и выбирает релевантные блоки. HCA работает с ещё более коротким представлением для дальних дистанций. Свежие токены остаются под отдельным sliding window - модель не теряет ближайший контекст.

Результат: 27% single-token inference FLOPs и 10% KV-cache по сравнению с V3.2. Это не «длиннее, но медленнее» - это «длиннее, но всё ещё практично».

mHC и Muon - почему сеть не разваливается

На trillion-scale обычные residual-связи перестают справляться. mHC делает прохождение сигнала через глубокую сеть стабильнее. Без этого обучение 1.6T-параметрической модели просто не сошлось бы.

Muon - отдельный оптимизатор, который DeepSeek использует вместо AdamW для значительной части параметров. Ускоряет сходимость и удерживает обучение в устойчивом режиме.

Красивый пользовательский фрейм модели - это следствие. Настоящая инженерия начинается там, где нужно сделать сеть обучаемой, стабильной и воспроизводимой на экстремальных размерах.

Agentic search: модель сама решает, что искать

В non-think режиме используется Retrieval-Augmented Search - классический retrieval в контекст. В thinking-режиме - agentic search: модель итеративно вызывает search и fetch инструменты, оценивает качество найденного и добирает контекст, если ответа не хватает.

Это принципиально. Хороший агент не должен получать один статичный кусок RAG в prompt. Он должен сам искать, оценивать и уточнять. На реальных задачах запрос редко укладывается в один retrieval-проход: пользователь уточняет вопрос, база знаний неполная, релевантный документ лежит в другом месте. Agentic search делает этот цикл встроенным в модель.

Сравнение моделей DeepSeek-V4

ХарактеристикаDeepSeek-V4-ProDeepSeek-V4-Flash
Параметры (всего / активных) 1.6T / 49B 284B / 13B
Контекст 1M токенов 1M токенов
Архитектура MoE + CSA + HCA + mHC MoE + CSA + HCA + mHC
Оптимизатор Muon (часть параметров) + AdamW Muon (часть параметров) + AdamW
Лицензия MIT MIT
API (input / output за 1M токенов) $1.74 / $5.20 $0.14 / $0.56
Железо для self-host (FP8) Кластер (8+ H100/H200) 2× H100 80GB
KV-cache vs V3.2 на 1M 10% 10%

Agentic search vs классический RAG

Классический RAG: система нашла чанки, вставила в контекст, модель ответила. Если чанк не тот - ответ слабый. Agentic search: модель сама решает, что искать, получает результаты, оценивает их и решает - достаточно или нужен ещё один поиск. Это ближе к тому, как работает человек с поисковиком: не один запрос, а итеративное уточнение.

Где это меняет правила игры для бизнеса

Большие базы знаний

Договоры, регламенты, техническая документация. Не чанковать на мелкие куски с риском потерять связность - загружать документы целиком.

Support-дески

Полная история обращений, база знаний, внутренние регламенты в одном контексте. Модель видит картину целиком, а не 3 - 5 retrieval-чанков.

Кодовые базы

Change-log, спецификации, документация API, issues - всё в рабочей памяти. Agentic search итеративно уточняет, а не угадывает с первого retrieval.

Multi-hop reasoning

Задачи, где ответ собирается из нескольких источников. Модель ищет первый факт, понимает что нужен второй, ищет второй - без ручного оркестратора.

On-premise через Flash

V4-Flash (284B/13B active) помещается на 2× H100 при FP8. MIT license. Закрытый контур, свои данные, без внешнего API.

Экономика длинного контекста

Flash от $0.14/M input токенов. Загрузка 200K токенов документа стоит ~3 цента. Сравнимо с retrieval + инференс, но проще архитектурно.

Вывод: что это значит для инженерной практики

RAG не умер, но порог «зачем RAG» сдвинулся

Раньше выбор был простой: контекст маленький и дорогой → нужен RAG. Сейчас с V4-Flash за $0.14/M токенов можно загрузить 200-страничный документ за несколько центов и задавать вопросы напрямую. Для многих задач это проще, чем строить retrieval pipeline с чанкованием, эмбеддингами и reranker.

Но RAG не исчезает. Он остаётся нужным там, где:

  • Объём документов превышает 1M токенов (архивы, многолетняя история).
  • Нужен точный retrieval с цитированием конкретных абзацев.
  • Требуется гибридный поиск (семантический + ключевые слова) и reranking.
  • Важна скорость: retrieval быстрее, чем загрузка всего документа в контекст.

Когда agentic search, а когда статичный RAG

Agentic search выигрывает, когда запрос не укладывается в один retrieval-проход: нужно уточнить, переформулировать, поискать в другом месте. Статичный RAG выигрывает, когда запрос предсказуем и retrieval-пайплайн хорошо отлажен.

Практическое правило: если на задаче retrieval-hit-rate стабильно выше 90% - статичного RAG достаточно. Если ниже - agentic search может дать существенный прирост.

Что мы учитываем при проектировании

Когда мы строим контур для заказчика, мы не начинаем с модели. Мы смотрим на:

  • Объём и структуру данных.
  • Типовые запросы и их сложность (одношаговые vs multi-hop).
  • Требования к latency и стоимости.
  • Где данные должны оставаться (on-premise, air-gap, выделенный ДЦ).
  • Какие метрики качества критичны: faithfulness, context precision, citation accuracy.

И уже под это выбираем: RAG, agentic search, длинный контекст или их комбинацию. DeepSeek-V4 интересен тем, что даёт все три варианта в одной модели - и Flash-версию, которую реально поднять локально.

Разберём ваш контур: RAG, agentic search или длинный контекст

Мы проектируем системы под данные заказчика: оцениваем объём, запросы, latency и безопасность. Предложим архитектуру - retrieval, tool-use, long context или связку - и посчитаем, что даст эффект в вашем контуре.