← Все статьи

DeepSeek-V4: миллион токенов, гибридное внимание и агентный поиск

DeepSeek-V4 показывает, как сделать миллион токенов полезными в реальной системе: гибридное внимание, mHC, Muon и agentic search вместо простого распухания промпта.

  • DeepSeek
  • LLM
  • long context
  • agents
  • RAG
  • open weights

DeepSeek-V4 — это хороший пример того, что длинный контекст перестал быть просто маркетинговой метрикой. По официальному релизу DeepSeek от 24 апреля 2026 года, компания выпустила две MoE-модели — V4-Pro и V4-Flash — обе с окном до 1 млн токенов. Технический отчёт доступен у DeepSeek и на Hugging Face: релиз DeepSeek-V4 и технический отчёт.

Для бизнеса это важный сигнал. Если система не умеет отбирать релевантные фрагменты, хранить рабочее состояние и вызывать инструменты в нужный момент, гигантский контекст превращается просто в дорогой способ носить лишние токены. Поэтому DeepSeek-V4 интересен не только как новая модель, но и как показатель того, куда движутся RAG и agentic workflows.

Что именно выпустил DeepSeek

В линейке DeepSeek-V4 две основные модели:

  • DeepSeek-V4-Pro — 1.6T параметров, 49B активных.
  • DeepSeek-V4-Flash — 284B параметров, 13B активных.

Обе модели поддерживают контекст до 1 млн токенов. Кроме того, DeepSeek сообщает об обновлённом API, совместимом с OpenAI ChatCompletions и Anthropic API, а сами веса опубликованы в открытом доступе.

С практической точки зрения это важно по двум причинам. Во-первых, можно строить системы, где модель действительно держит в памяти большой объём истории, а не только пару соседних чанков. Во-вторых, открытые веса дают шанс развернуть похожую архитектуру локально или в частном контуре, если инфраструктура это тянет.

Почему большой контекст сам по себе не спасает

Наивная идея звучит просто: если модели не хватает памяти, дадим ей больше токенов. Но на практике длинный контекст быстро упирается в вычисления и память.

В трансформерах каждый новый фрагмент истории увеличивает нагрузку на attention и KV-cache. Чем длиннее история, тем дороже становится и префилл, и инференс. В итоге 1 млн токенов без специальных оптимизаций — это не «магический блокнот», а очень дорогой вычислительный режим.

Отсюда и главный вывод: бизнесу нужен не просто большой prompt window, а система, которая умеет выбирать нужное, сжимать лишнее и запрашивать недостающее по мере необходимости. Если вам нужен базовый разбор разницы между retrieval и просто длинным окном, мы уже разбирали это в статье RAG для бизнеса: зачем он нужен и чем он отличается от большого контекста.

Как DeepSeek сделал это практичнее

Ключевая идея DeepSeek-V4 — гибридное внимание. В отчёте описаны два механизма: Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA).

Проще говоря:

  • CSA сжимает KV-историю и потом выбирает только наиболее полезные блоки через sparse-поиск.
  • HCA сжимает ещё агрессивнее и работает с более короткой представленной историей.
  • Последние токены остаются под отдельным скользящим окном, чтобы свежий контекст не терялся из-за сжатия.

У DeepSeek это не косметическая оптимизация, а основа того, почему миллион токенов вообще становится практичным. В техническом отчёте сказано, что в режиме 1M контекста DeepSeek-V4-Pro требует только 27% вычислений single-token inference и 10% KV-cache по сравнению с DeepSeek-V3.2.

Это как раз тот случай, когда важно не только «сколько модель может помнить», но и «сколько стоит ей это помнить».

Зачем здесь mHC и Muon

Если бы дело было только в внимании, модель всё равно оставалась бы хрупкой на очень больших масштабах. Поэтому DeepSeek добавил ещё два инженерных слоя.

mHC — это Manifold-Constrained Hyper-Connections. Если упростить, механизм делает прохождение сигнала через очень глубокую сеть стабильнее, чем обычные residual-связи. Для trillion-scale модели это не второстепенная деталь, а условие того, что обучение вообще не развалится.

Muon — отдельный оптимизатор, который DeepSeek использует вместо AdamW для значительной части параметров. Его роль — ускорить сходимость и удержать обучение в устойчивом режиме.

Мы обычно говорим об этом так: красивый пользовательский фрейм модели — это уже следствие. А вот настоящая инженерия начинается там, где нужно сделать сеть обучаемой, стабильной и воспроизводимой на экстремальных размерах.

Почему это особенно интересно для агентов

Самая важная для прикладных систем часть отчёта — не только длинный контекст, но и то, как DeepSeek-V4 работает с инструментами.

Официальные документы DeepSeek прямо говорят, что в non-think режиме используется Retrieval-Augmented Search, а в thinking режиме — agentic search. В самом отчёте agentic search описан как подход, где модель может итеративно вызывать search и fetch инструменты по запросу, а не просто получать один заранее собранный кусок контекста.

Именно здесь появляется наша практическая фишка: мы тоже считаем, что хороший агент не должен просто получать куски RAG в prompt. Он должен уметь сам искать, оценивать, достаточно ли найденного, и добирать контекст, если ответа пока не хватает. Об этом подробнее в статье ИИ-агенты с tool-use: как модель сама ищет данные и добирает контекст.

Это важнее, чем кажется. На реальных задачах запрос редко укладывается в один статичный retrieval-проход. Пользователь уточняет вопрос, база знаний неполная, релевантный документ лежит в другом месте, а часть ответа нужно собрать из нескольких источников. В такой ситуации agentic search часто работает лучше, чем попытка угадать всё с первого чанка.

Что это значит для бизнеса

DeepSeek-V4 полезен не всем и не всегда. Но он очень хорошо показывает, в какую сторону движется прикладной enterprise AI.

Хорошие сценарии для такого подхода:

  • большие базы знаний и архивы документов;
  • договоры, регламенты и техническая документация;
  • support-дески и внутренние сервисные каталоги;
  • кодовые базы, инженерные спецификации и change-log по проектам;
  • сценарии, где модели нужно последовательно искать, проверять и уточнять ответ.

При этом не нужно переоценивать сам миллион токенов. Во многих проектах правильный RAG, хороший reranker и аккуратный tool-use дадут больше эффекта, чем попытка загрузить в модель весь архив целиком. А если задача действительно требует длинного рабочего контекста, нужно ещё и соответствующее железо. Наш разбор конфигураций для таких сценариев — в статье Железо под локальную LLM в 2026: как выбрать конфигурацию под свою нагрузку.

Как мы бы строили такой контур

Если смотреть на это с инженерной стороны, то рабочая схема обычно выглядит так:

  • retrieval как слой достоверности;
  • tool-use как слой добора и проверки информации;
  • длинный контекст как рабочая память для сложных цепочек;
  • guardrails и контроль доступа, чтобы агент не уходил в произвольный поиск;
  • метрики качества, а не только ощущение «модель умная».

Для таких проектов мы смотрим на faithfulness, context precision, hit rate по retrieval, latency и стоимость запроса. И уже под это подбираем архитектуру: где достаточно RAG, где нужен agentic search, а где выгоднее использовать long-context модель.

Вывод

DeepSeek-V4 — это не просто очередной релиз большой модели. Это хороший знак того, что длинный контекст, retrieval и tool-use начинают складываться в одну инженерную систему.

Для бизнеса здесь главный урок простой: не стоит измерять зрелость ИИ только размером окна. Важнее, умеет ли модель искать, сжимать, проверять и добирать данные там, где это действительно нужно.

Если хотите, мы можем помочь разложить ваш кейс на три слоя — RAG, agentic search и инфраструктуру под длинный контекст — и понять, что реально даст эффект в вашем контуре.

Внедрить аналогичное решение?

Расскажите о задаче — соберём предварительную архитектуру под ваши данные.

Связаться