Qwen3.6-27B: локальная LLM, которая догнала Opus-класс
27 миллиардов параметров, dense-архитектура, Apache 2.0. Релиз 22 апреля 2026 года от Alibaba: модель бьёт предыдущий 397B MoE-флагман на всех agentic coding бенчмарках, сравнивается с Claude Opus 4.6 и запускается на одной RTX 4090.
Почему вокруг Qwen3.6-27B столько шума
У локальных моделей долго была понятная проблема. Они были либо удобными, но слабыми, либо сильными, но настолько тяжёлыми, что превращались в инфраструктурный проект сами по себе.
22 апреля 2026 года Qwen Team выпустила Qwen3.6-27B - и попала в редкую точку баланса. Это dense-модель на 27B параметров, которую можно запускать локально в quant-режимах, но по поведению она ближе к классу больших коммерческих моделей, чем к привычным «домашним» LLM.
Главная интрига не в том, что модель «большая». Наоборот, она интересна именно тем, что остаётся достаточно компактной для локального запуска и при этом в ряде задач выходит на уровень Opus-класса. Не как полная замена Claude Opus 4.6 во всём, а как рабочий локальный инструмент, который уже можно ставить рядом с закрытыми моделями в реальных инженерных сценариях.
Материал основан на официальном блоге Qwen Team (апрель 2026), Hugging Face карточке модели, данных Artificial Analysis, LLMReference, обсуждениях LocalLLaMA и практических запусках через LM Studio, llama.cpp, OpenCode, OpenClaw, vLLM и SGLang.
Ключевые характеристики модели
Dense 27B, не MoE
Все 27B параметров активны на каждом токене. Без MoE routing complexity. Проще деплоить, предсказуемее latency. Бьёт Qwen3.5-397B-A17B.
Гибридный attention
64 слоя: 3× Gated DeltaNet (линейное внимание) + 1× Gated Attention. Не даёт скорости падать на 64K+ контексте.
Thinking preservation
Флаг preserve_thinking сохраняет chain-of-thought предыдущих ходов между вызовами. Модель не пересчитывает рассуждения заново в agentic цикле.
Мультимодальность
Единый чекпоинт: thinking и non-thinking режимы, текст, изображения, видео. Встроенный vision encoder, без внешних адаптеров.
262K → 1M контекст
Нативный контекст 262 144 токена. YaRN-масштабирование до ~1 010 000 токенов для сверхдлинных документов.
Apache 2.0, полный стек
Открытые веса, коммерческое использование. vLLM, SGLang, KTransformers, Transformers, llama.cpp, LM Studio, Ollama, OpenClaw, Qwen Code.
Архитектура: почему контекст не тормозит
64 слоя трансформера построены по формуле 3×(Gated DeltaNet → FFN) + 1×(Gated Attention → FFN). Три четверти sublayer-ов используют линейное внимание Gated DeltaNet, каждый четвёртый - классическое Gated Attention с уменьшенным числом KV-голов для сжатия кэша.
На практике это означает, что модель не попадает в «speed cliff» на длинном контексте, характерный для чистого self-attention. Токены за 64K обрабатываются без резкого падения скорости.
В агентном цикле модель обычно вызывает инструменты, читает результат и делает новый вызов. При каждом вызове контекст пересобирается. До Qwen3.6 это означало потерю цепочки рассуждений при смене роли. Флаг preserve_thinking сохраняет reasoning trace предыдущих шагов - модель не тратит токены на повторный вывод того, что уже обдумала.
Официальные метрики
| Бенчмарк | Qwen3.6-27B | Qwen3.5-397B-A17B (397B MoE) | Claude 4.5 Opus |
|---|---|---|---|
| SWE-bench Verified | 77.2 | 76.2 | - |
| SWE-bench Pro | 53.5 | 50.9 | - |
| Terminal-Bench 2.0 | 59.3 | 52.5 | 59.3 |
| SkillsBench Avg5 | 48.2 | 30.0 | 45.3 |
| GPQA Diamond | 87.8 | - | - |
| AIME26 | 94.1 | - | - |
| LiveCodeBench v6 | 83.9 | - | - |
Разбор бенчмарков и сравнение с Opus
Ключевой рисунок: 27B dense обходит 397B MoE-флагман по всем agentic coding бенчмаркам и сравнивается с Claude Opus на Terminal-Bench. Это не «модель выиграла всё подряд», а стабильное присутствие рядом с моделями, которые закрыты, требуют облака и недоступны для on-premise.
На NL2Repo модель получает 36.2 при оценке через Claude Code (900 ходов). QwenWebBench - 1487 (внутренний бенчмарк на фронтенд-генерацию, билингвальный, 7 категорий, auto-render + multimodal judge).
Claude Opus 4.6 остаётся более зрелой закрытой моделью: сильнее enterprise-инфраструктура, шире managed-экосистема, гарантированное поведение в сложных сценариях. Если нужен максимум надёжности без самостоятельной инфраструктуры - Opus всё ещё логичный выбор.
Но Qwen3.6-27B уже уверенно соревнуется в задачах, где раньше локальные модели выглядели компромиссом: agentic coding, фронтенд-генерация, работа с репозиториями, tool-use, мультимодальность и автономные циклы разработки.
Смысл не в том, что Qwen «уничтожила» Opus. Смысл в другом: 27B локальная модель стала достаточно сильной, чтобы во многих инженерных задачах вопрос звучал не «можно ли заменить облако», а «какие задачи рационально оставить локально».
Для бизнеса это принципиальный сдвиг
Кодовая база, внутренние регламенты, переписка, данные из 1С, CRM, MES и закрытые базы знаний часто нельзя отправлять во внешний API. Если локальная модель даёт качество рядом с Opus-классом - даже с небольшим отставанием в общих бенчмарках - она может быть лучшим практическим выбором. Не из идеологии, а из инженерного расчёта.
Реальные тесты: не только leaderboard
Nova OS - браузерная ОС
Десятки тысяч токенов кода в одном HTML. Оконный интерфейс, терминал с neofetch, Paint, 3D-шутер, машина времени. Спроектировала поведение, не просто исполнила инструкцию.
3D-шутер из сцены метро
Сначала построила 3D-станцию на Three.js. Затем по просьбе добавила оружие, трассеры, перезарядку, врагов. Итеративно модифицировала существующую кодовую базу.
Planet Forge vs 1T модель
27B собрала генератор планет с океаном, атмосферой, сменой дня/ночи. Модель на ~1 трлн параметров дала нерабочий результат.
3D-барабаны + Web Audio
Связала 3D-сцену с клавиатурой, добавила анимацию ударов, программный синтез звуков и autoplay-пресеты. Системное поведение - несколько подсистем в одном продукте.
Самопочинка в OpenClaw
Написала VoxelCraft. Первая версия - ошибка рендера. Прочитала лог, нашла проблему в Three.js, переписала код, перезапустила - игра заработала.
Мультимодальность в деле
Читает скриншоты графиков - делает выводы. По 2D-референсу строит 3D-сцену. По sprite sheet с машинами собирает мини-игру с нарезкой спрайтов.
Железо, quant-ы и где модель ломается
VRAM и скорость
Qwen3.6-27B - локальная модель, но это не значит, что её можно запустить на чём угодно.
- Q4_K_M: ~20 GB VRAM. Минимальный порог для RTX 3090/4090 (24 GB). 40+ tok/s на RTX 4090.
- Q5_K_M: ~24 GB. Рекомендуемый баланс качество/скорость для 24 GB карт.
- Q6_K: ~28 GB. Нужна карта с 32+ GB или dual GPU.
- Q8_0 / FP8: ~35 - 40 GB. Максимальное качество, требует 48 GB (A6000, L40S, dual 4090).
- BF16: ~54 GB. Полная точность, multi-GPU или Apple Silicon с unified memory.
Официальный FP8-чекапоинт от Qwen Team - рекомендуемый путь при tight VRAM. Но quant-ы могут ломать JSON tool grammar - обязательно валидируйте на своём eval.
На Mac: Apple Silicon с unified memory (M2 Ultra 76 GB, M3 Max) - комфортный запуск через MLX или llama.cpp. 15 - 30 tok/s в зависимости от чипа и quant.
Где модель ломается
Слабые места честные и их лучше знать заранее:
- Игровая логика: Pac-Man - визуально хороший лабиринт, но призраки стоят, управление нестабильно. Змейка - красивая графика, сломанный game over.
- Blender API: по фото велосипеда генерирует скрипт, но на выходе хаотичный набор примитивов. Узкие процедурные API - слабая зона.
- Потеря размерности: просьба «сделай игру про скейтбордиста в 3D» - хороший прототип, но оставила его плоским 2D.
- 4-bit quant: на сложных reasoning-задачах качество может заметно просесть.
- Многословность: иногда модель выдаёт больше текста, чем нужно.
Это не критические недостатки, а границы применимости. Модель нужно тестировать на своих задачах, а не на одном ролике.
Production-сервер
Для нескольких пользователей подход другой: vLLM или SGLang, мониторинг, очереди, KV-cache management, расчёт latency/throughput под реальные запросы. В российских реалиях - ещё и поставки, гарантия, охлаждение, сервис consumer GPU. Мы разбирали эту практику в статье Локальная LLM в России: как собрать рабочий сервер на consumer GPU.
VRAM по quant-ам для Qwen3.6-27B
| Quant | VRAM | Типичное железо | Качество / компромисс |
|---|---|---|---|
| Q4_K_M | ~20 GB | RTX 3090, RTX 4090 (24 GB) | Минимальный порог. 40+ tok/s. Возможна деградация на сложном reasoning |
| Q5_K_M | ~24 GB | RTX 4090, RTX 3090 (24 GB) | Рекомендуемый баланс качество/скорость для 24 GB карт |
| Q6_K | ~28 GB | RTX A5000, dual 4090, M2 Ultra | Заметно лучше качество, нужна карта с ≥32 GB |
| Q8_0 / FP8 | ~35 - 40 GB | A6000, L40S, M2 Ultra 76 GB | Максимальное качество для одного GPU. FP8 - официальный чекпоинт Qwen Team |
| BF16 | ~54 GB | Multi-GPU, M2 Ultra 192 GB | Полная точность. Для продакшна с максимальным качеством |
Тестируем модель под ваш контур
Мы не верим в один ролик. Перед внедрением собираем eval на ваших данных: внутренние документы, код, tool-use, длинный контекст, русский язык, quant-ы. Считаем latency, VRAM, cost per request. Предложим архитектуру: RAG, модели, железо и мониторинг.