DeepSeek-V4: миллион токенов, гибридное внимание и агентный поиск
Релиз 24 апреля 2026 года: две MoE-модели с нативным 1M контекстом. V4-Pro (1.6T/49B active) и V4-Flash (284B/13B active). Гибридное внимание CSA+HCA, manifold-constrained hyper-connections, оптимизатор Muon. И agentic search - модель сама ищет и добирает контекст.
Почему 1M токенов - это не просто цифра
Длинный контекст долго был маркетинговой метрикой. Модели заявляли 128K, 256K, потом и 1M токенов - но на практике окно за 64K либо обходилось в состояние, либо давало «потерю середины» (lost-in-the-middle), когда модель игнорирует информацию из центра контекста.
DeepSeek-V4 - первый релиз, где миллион токенов выглядит не как галочка, а как инженерно осмысленная возможность. Ключевое достижение не в том, что окно большое, а в том, что оно эффективное: в режиме 1M контекста V4-Pro требует только 27% вычислений single-token inference и 10% KV-cache по сравнению с DeepSeek-V3.2. Это не «бесплатно», но это практично.
Для бизнеса это важный сигнал. Если система не умеет отбирать релевантные фрагменты, хранить рабочее состояние и вызывать инструменты в нужный момент, гигантский контекст превращается в дорогой способ носить лишние токены. DeepSeek-V4 интересен именно тем, что показывает: длинный контекст, retrieval и tool-use начинают складываться в одну инженерную систему.
Технический отчёт: DeepSeek-V4.pdf на Hugging Face. Релиз: api-docs.deepseek.com.
Ключевые инженерные инновации
CSA: Compressed Sparse Attention
Сжимает KV-историю, затем выбирает только наиболее полезные блоки через sparse-поиск. Не все токены равны - модель учится отличать важное от шума.
HCA: Heavily Compressed Attention
Ещё агрессивнее сжимает историю для сверхдлинных дистанций. Последние токены - под скользящим окном, свежий контекст не теряется.
mHC: стабильность триллионной сети
Manifold-Constrained Hyper-Connections. Улучшенные residual-связи, которые не дают сигналу деградировать в очень глубокой сети. Не второстепенная деталь.
Muon вместо AdamW
Отдельный оптимизатор для значительной части параметров. Ускоряет сходимость и удерживает обучение в устойчивом режиме на trillion-scale.
Agentic search
В thinking-режиме модель итеративно вызывает search и fetch. Не получает статичный кусок RAG - сама решает, что искать и когда остановиться.
MIT license, открытые веса
V4-Pro и V4-Flash доступны на Hugging Face под MIT. API совместим с OpenAI ChatCompletions и Anthropic. Flash от $0.14/M input токенов.
Архитектура: как это работает
Гибридное внимание - не один трюк, а два
CSA и HCA - это не косметические оптимизации, а основа того, почему 1M токенов становится практичным. CSA сжимает KV-историю и выбирает релевантные блоки. HCA работает с ещё более коротким представлением для дальних дистанций. Свежие токены остаются под отдельным sliding window - модель не теряет ближайший контекст.
Результат: 27% single-token inference FLOPs и 10% KV-cache по сравнению с V3.2. Это не «длиннее, но медленнее» - это «длиннее, но всё ещё практично».
mHC и Muon - почему сеть не разваливается
На trillion-scale обычные residual-связи перестают справляться. mHC делает прохождение сигнала через глубокую сеть стабильнее. Без этого обучение 1.6T-параметрической модели просто не сошлось бы.
Muon - отдельный оптимизатор, который DeepSeek использует вместо AdamW для значительной части параметров. Ускоряет сходимость и удерживает обучение в устойчивом режиме.
Красивый пользовательский фрейм модели - это следствие. Настоящая инженерия начинается там, где нужно сделать сеть обучаемой, стабильной и воспроизводимой на экстремальных размерах.
Agentic search: модель сама решает, что искать
В non-think режиме используется Retrieval-Augmented Search - классический retrieval в контекст. В thinking-режиме - agentic search: модель итеративно вызывает search и fetch инструменты, оценивает качество найденного и добирает контекст, если ответа не хватает.
Это принципиально. Хороший агент не должен получать один статичный кусок RAG в prompt. Он должен сам искать, оценивать и уточнять. На реальных задачах запрос редко укладывается в один retrieval-проход: пользователь уточняет вопрос, база знаний неполная, релевантный документ лежит в другом месте. Agentic search делает этот цикл встроенным в модель.
Сравнение моделей DeepSeek-V4
| Характеристика | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| Параметры (всего / активных) | 1.6T / 49B | 284B / 13B |
| Контекст | 1M токенов | 1M токенов |
| Архитектура | MoE + CSA + HCA + mHC | MoE + CSA + HCA + mHC |
| Оптимизатор | Muon (часть параметров) + AdamW | Muon (часть параметров) + AdamW |
| Лицензия | MIT | MIT |
| API (input / output за 1M токенов) | $1.74 / $5.20 | $0.14 / $0.56 |
| Железо для self-host (FP8) | Кластер (8+ H100/H200) | 2× H100 80GB |
| KV-cache vs V3.2 на 1M | 10% | 10% |
Agentic search vs классический RAG
Классический RAG: система нашла чанки, вставила в контекст, модель ответила. Если чанк не тот - ответ слабый. Agentic search: модель сама решает, что искать, получает результаты, оценивает их и решает - достаточно или нужен ещё один поиск. Это ближе к тому, как работает человек с поисковиком: не один запрос, а итеративное уточнение.
Где это меняет правила игры для бизнеса
Большие базы знаний
Договоры, регламенты, техническая документация. Не чанковать на мелкие куски с риском потерять связность - загружать документы целиком.
Support-дески
Полная история обращений, база знаний, внутренние регламенты в одном контексте. Модель видит картину целиком, а не 3 - 5 retrieval-чанков.
Кодовые базы
Change-log, спецификации, документация API, issues - всё в рабочей памяти. Agentic search итеративно уточняет, а не угадывает с первого retrieval.
Multi-hop reasoning
Задачи, где ответ собирается из нескольких источников. Модель ищет первый факт, понимает что нужен второй, ищет второй - без ручного оркестратора.
On-premise через Flash
V4-Flash (284B/13B active) помещается на 2× H100 при FP8. MIT license. Закрытый контур, свои данные, без внешнего API.
Экономика длинного контекста
Flash от $0.14/M input токенов. Загрузка 200K токенов документа стоит ~3 цента. Сравнимо с retrieval + инференс, но проще архитектурно.
Вывод: что это значит для инженерной практики
RAG не умер, но порог «зачем RAG» сдвинулся
Раньше выбор был простой: контекст маленький и дорогой → нужен RAG. Сейчас с V4-Flash за $0.14/M токенов можно загрузить 200-страничный документ за несколько центов и задавать вопросы напрямую. Для многих задач это проще, чем строить retrieval pipeline с чанкованием, эмбеддингами и reranker.
Но RAG не исчезает. Он остаётся нужным там, где:
- Объём документов превышает 1M токенов (архивы, многолетняя история).
- Нужен точный retrieval с цитированием конкретных абзацев.
- Требуется гибридный поиск (семантический + ключевые слова) и reranking.
- Важна скорость: retrieval быстрее, чем загрузка всего документа в контекст.
Когда agentic search, а когда статичный RAG
Agentic search выигрывает, когда запрос не укладывается в один retrieval-проход: нужно уточнить, переформулировать, поискать в другом месте. Статичный RAG выигрывает, когда запрос предсказуем и retrieval-пайплайн хорошо отлажен.
Практическое правило: если на задаче retrieval-hit-rate стабильно выше 90% - статичного RAG достаточно. Если ниже - agentic search может дать существенный прирост.
Что мы учитываем при проектировании
Когда мы строим контур для заказчика, мы не начинаем с модели. Мы смотрим на:
- Объём и структуру данных.
- Типовые запросы и их сложность (одношаговые vs multi-hop).
- Требования к latency и стоимости.
- Где данные должны оставаться (on-premise, air-gap, выделенный ДЦ).
- Какие метрики качества критичны: faithfulness, context precision, citation accuracy.
И уже под это выбираем: RAG, agentic search, длинный контекст или их комбинацию. DeepSeek-V4 интересен тем, что даёт все три варианта в одной модели - и Flash-версию, которую реально поднять локально.
Разберём ваш контур: RAG, agentic search или длинный контекст
Мы проектируем системы под данные заказчика: оцениваем объём, запросы, latency и безопасность. Предложим архитектуру - retrieval, tool-use, long context или связку - и посчитаем, что даст эффект в вашем контуре.