Исследование
6 мая 2026 · 12 мин чтения · AI Platforms

Qwen3.6-27B: локальная LLM, которая догнала Opus-класс

27 миллиардов параметров, dense-архитектура, Apache 2.0. Релиз 22 апреля 2026 года от Alibaba: модель бьёт предыдущий 397B MoE-флагман на всех agentic coding бенчмарках, сравнивается с Claude Opus 4.6 и запускается на одной RTX 4090.

  • Qwen
  • local LLM
  • open weights
  • coding agents
  • GPU
  • on-premise AI
  • Gated DeltaNet
  • agentic coding

Почему вокруг Qwen3.6-27B столько шума

У локальных моделей долго была понятная проблема. Они были либо удобными, но слабыми, либо сильными, но настолько тяжёлыми, что превращались в инфраструктурный проект сами по себе.

22 апреля 2026 года Qwen Team выпустила Qwen3.6-27B - и попала в редкую точку баланса. Это dense-модель на 27B параметров, которую можно запускать локально в quant-режимах, но по поведению она ближе к классу больших коммерческих моделей, чем к привычным «домашним» LLM.

Главная интрига не в том, что модель «большая». Наоборот, она интересна именно тем, что остаётся достаточно компактной для локального запуска и при этом в ряде задач выходит на уровень Opus-класса. Не как полная замена Claude Opus 4.6 во всём, а как рабочий локальный инструмент, который уже можно ставить рядом с закрытыми моделями в реальных инженерных сценариях.

Материал основан на официальном блоге Qwen Team (апрель 2026), Hugging Face карточке модели, данных Artificial Analysis, LLMReference, обсуждениях LocalLLaMA и практических запусках через LM Studio, llama.cpp, OpenCode, OpenClaw, vLLM и SGLang.

Ключевые характеристики модели

Dense 27B, не MoE

Все 27B параметров активны на каждом токене. Без MoE routing complexity. Проще деплоить, предсказуемее latency. Бьёт Qwen3.5-397B-A17B.

Гибридный attention

64 слоя: 3× Gated DeltaNet (линейное внимание) + 1× Gated Attention. Не даёт скорости падать на 64K+ контексте.

Thinking preservation

Флаг preserve_thinking сохраняет chain-of-thought предыдущих ходов между вызовами. Модель не пересчитывает рассуждения заново в agentic цикле.

Мультимодальность

Единый чекпоинт: thinking и non-thinking режимы, текст, изображения, видео. Встроенный vision encoder, без внешних адаптеров.

262K → 1M контекст

Нативный контекст 262 144 токена. YaRN-масштабирование до ~1 010 000 токенов для сверхдлинных документов.

Apache 2.0, полный стек

Открытые веса, коммерческое использование. vLLM, SGLang, KTransformers, Transformers, llama.cpp, LM Studio, Ollama, OpenClaw, Qwen Code.

Архитектура: почему контекст не тормозит

64 слоя трансформера построены по формуле 3×(Gated DeltaNet → FFN) + 1×(Gated Attention → FFN). Три четверти sublayer-ов используют линейное внимание Gated DeltaNet, каждый четвёртый - классическое Gated Attention с уменьшенным числом KV-голов для сжатия кэша.

На практике это означает, что модель не попадает в «speed cliff» на длинном контексте, характерный для чистого self-attention. Токены за 64K обрабатываются без резкого падения скорости.

В агентном цикле модель обычно вызывает инструменты, читает результат и делает новый вызов. При каждом вызове контекст пересобирается. До Qwen3.6 это означало потерю цепочки рассуждений при смене роли. Флаг preserve_thinking сохраняет reasoning trace предыдущих шагов - модель не тратит токены на повторный вывод того, что уже обдумала.

Официальные метрики

БенчмаркQwen3.6-27BQwen3.5-397B-A17B (397B MoE)Claude 4.5 Opus
SWE-bench Verified 77.2 76.2 -
SWE-bench Pro 53.5 50.9 -
Terminal-Bench 2.0 59.3 52.5 59.3
SkillsBench Avg5 48.2 30.0 45.3
GPQA Diamond 87.8 - -
AIME26 94.1 - -
LiveCodeBench v6 83.9 - -

Разбор бенчмарков и сравнение с Opus

Ключевой рисунок: 27B dense обходит 397B MoE-флагман по всем agentic coding бенчмаркам и сравнивается с Claude Opus на Terminal-Bench. Это не «модель выиграла всё подряд», а стабильное присутствие рядом с моделями, которые закрыты, требуют облака и недоступны для on-premise.

На NL2Repo модель получает 36.2 при оценке через Claude Code (900 ходов). QwenWebBench - 1487 (внутренний бенчмарк на фронтенд-генерацию, билингвальный, 7 категорий, auto-render + multimodal judge).

Claude Opus 4.6 остаётся более зрелой закрытой моделью: сильнее enterprise-инфраструктура, шире managed-экосистема, гарантированное поведение в сложных сценариях. Если нужен максимум надёжности без самостоятельной инфраструктуры - Opus всё ещё логичный выбор.

Но Qwen3.6-27B уже уверенно соревнуется в задачах, где раньше локальные модели выглядели компромиссом: agentic coding, фронтенд-генерация, работа с репозиториями, tool-use, мультимодальность и автономные циклы разработки.

Смысл не в том, что Qwen «уничтожила» Opus. Смысл в другом: 27B локальная модель стала достаточно сильной, чтобы во многих инженерных задачах вопрос звучал не «можно ли заменить облако», а «какие задачи рационально оставить локально».

Для бизнеса это принципиальный сдвиг

Кодовая база, внутренние регламенты, переписка, данные из 1С, CRM, MES и закрытые базы знаний часто нельзя отправлять во внешний API. Если локальная модель даёт качество рядом с Opus-классом - даже с небольшим отставанием в общих бенчмарках - она может быть лучшим практическим выбором. Не из идеологии, а из инженерного расчёта.

Реальные тесты: не только leaderboard

Nova OS - браузерная ОС

Десятки тысяч токенов кода в одном HTML. Оконный интерфейс, терминал с neofetch, Paint, 3D-шутер, машина времени. Спроектировала поведение, не просто исполнила инструкцию.

3D-шутер из сцены метро

Сначала построила 3D-станцию на Three.js. Затем по просьбе добавила оружие, трассеры, перезарядку, врагов. Итеративно модифицировала существующую кодовую базу.

Planet Forge vs 1T модель

27B собрала генератор планет с океаном, атмосферой, сменой дня/ночи. Модель на ~1 трлн параметров дала нерабочий результат.

3D-барабаны + Web Audio

Связала 3D-сцену с клавиатурой, добавила анимацию ударов, программный синтез звуков и autoplay-пресеты. Системное поведение - несколько подсистем в одном продукте.

Самопочинка в OpenClaw

Написала VoxelCraft. Первая версия - ошибка рендера. Прочитала лог, нашла проблему в Three.js, переписала код, перезапустила - игра заработала.

Мультимодальность в деле

Читает скриншоты графиков - делает выводы. По 2D-референсу строит 3D-сцену. По sprite sheet с машинами собирает мини-игру с нарезкой спрайтов.

Железо, quant-ы и где модель ломается

VRAM и скорость

Qwen3.6-27B - локальная модель, но это не значит, что её можно запустить на чём угодно.

  • Q4_K_M: ~20 GB VRAM. Минимальный порог для RTX 3090/4090 (24 GB). 40+ tok/s на RTX 4090.
  • Q5_K_M: ~24 GB. Рекомендуемый баланс качество/скорость для 24 GB карт.
  • Q6_K: ~28 GB. Нужна карта с 32+ GB или dual GPU.
  • Q8_0 / FP8: ~35 - 40 GB. Максимальное качество, требует 48 GB (A6000, L40S, dual 4090).
  • BF16: ~54 GB. Полная точность, multi-GPU или Apple Silicon с unified memory.

Официальный FP8-чекапоинт от Qwen Team - рекомендуемый путь при tight VRAM. Но quant-ы могут ломать JSON tool grammar - обязательно валидируйте на своём eval.

На Mac: Apple Silicon с unified memory (M2 Ultra 76 GB, M3 Max) - комфортный запуск через MLX или llama.cpp. 15 - 30 tok/s в зависимости от чипа и quant.

Где модель ломается

Слабые места честные и их лучше знать заранее:

  • Игровая логика: Pac-Man - визуально хороший лабиринт, но призраки стоят, управление нестабильно. Змейка - красивая графика, сломанный game over.
  • Blender API: по фото велосипеда генерирует скрипт, но на выходе хаотичный набор примитивов. Узкие процедурные API - слабая зона.
  • Потеря размерности: просьба «сделай игру про скейтбордиста в 3D» - хороший прототип, но оставила его плоским 2D.
  • 4-bit quant: на сложных reasoning-задачах качество может заметно просесть.
  • Многословность: иногда модель выдаёт больше текста, чем нужно.

Это не критические недостатки, а границы применимости. Модель нужно тестировать на своих задачах, а не на одном ролике.

Production-сервер

Для нескольких пользователей подход другой: vLLM или SGLang, мониторинг, очереди, KV-cache management, расчёт latency/throughput под реальные запросы. В российских реалиях - ещё и поставки, гарантия, охлаждение, сервис consumer GPU. Мы разбирали эту практику в статье Локальная LLM в России: как собрать рабочий сервер на consumer GPU.

VRAM по quant-ам для Qwen3.6-27B

QuantVRAMТипичное железоКачество / компромисс
Q4_K_M ~20 GB RTX 3090, RTX 4090 (24 GB) Минимальный порог. 40+ tok/s. Возможна деградация на сложном reasoning
Q5_K_M ~24 GB RTX 4090, RTX 3090 (24 GB) Рекомендуемый баланс качество/скорость для 24 GB карт
Q6_K ~28 GB RTX A5000, dual 4090, M2 Ultra Заметно лучше качество, нужна карта с ≥32 GB
Q8_0 / FP8 ~35 - 40 GB A6000, L40S, M2 Ultra 76 GB Максимальное качество для одного GPU. FP8 - официальный чекпоинт Qwen Team
BF16 ~54 GB Multi-GPU, M2 Ultra 192 GB Полная точность. Для продакшна с максимальным качеством

Тестируем модель под ваш контур

Мы не верим в один ролик. Перед внедрением собираем eval на ваших данных: внутренние документы, код, tool-use, длинный контекст, русский язык, quant-ы. Считаем latency, VRAM, cost per request. Предложим архитектуру: RAG, модели, железо и мониторинг.