Gemma 4 12B в агентных сценариях: почему переоцененная модель не вытянула сложный tool-use
Мы несколько раз тестировали Gemma 4 12B в локальном контуре - на обычной instruction-версии, на сборке Unsloth Q6, затем на QAT GGUF, а также с обновленным chat template и сохранением thinking. Итог неприятный: часть низкоуровневых багов удалось уменьшить, но как рабочая модель для сложных ИИ-агентов линейка Gemma 4 12B все равно оказалась слабее ожиданий и заметно слабее Qwen3.6 35B A3B в том же окружении.
Важно: это не универсальный приговор всей модели
Gemma 4 12B может быть полезной для коротких диалогов, простых OCR/vision-задач и одиночных вызовов инструментов. Этот материал про другой режим: длинные инструкции, AGENTS.md, MCP, несколько инструментов, многошаговые решения и реальную агентную сессию.
Какие проблемы повторялись в реальных сессиях
Не один случайный промах, а повторяющийся паттерн поведения.
Модель выбирает самый короткий путь
Вместо того чтобы последовательно использовать доступные инструменты и добирать контекст, модель слишком часто пытается ответить упрощенно и поверхностно. Она как будто экономит шаги даже там, где задача явно требует цепочки действий.
Длинные инструкции читаются, но плохо исполняются
Даже при наличии подробного AGENTS.md и явных правил работы с файлами, поиском и форматами модель склонна игнорировать часть требований и соскальзывать в примитивный режим ответа.
Tool-use работает в демо, но слабеет в реальном агенте
На коротких демонстрациях с 1 инструментом Gemma 4 может выглядеть нормально. Проблема начинается в открытой сессии, где надо выбирать между несколькими инструментами, держать ограничения и не терять дисциплину на 3-5 шагах.
Патч шаблона исправил plumbing, но не мышление
Обновленный chat template и сохранение thinking убрали часть технических сбоев в передаче reasoning/tool calls. Но главный продуктовый дефект остался: модель все равно недожимает сложные агентные сценарии.
Почему ожидания были высокими
На бумаге у Gemma 4 12B все выглядело очень сильно. В официальной карточке модели Google пишет про 256K контекст, native function calling, agentic workflows, multimodal-режим и поддержку system-роли. В QAT-репозитории отдельно выложена версия для локального запуска через GGUF и llama.cpp, что делает модель особенно привлекательной для on-premise AI и частных LLM.
Официальные источники:
Из карточки модели следует прямая инженерная гипотеза: если у нас есть длинный контекст, thinking mode, structured tool use и локальный inference-стек, то модель должна быть рабочей базой для автономного агента. Именно это мы и проверяли.
Что было обещано и что мы увидели в локальном контуре
Это не академический benchmark, а прикладная инженерная оценка в локальном агентном контуре.
| Что заявлено | Что мы увидели на практике | Инженерный вывод |
|---|---|---|
| Native function calling и agentic workflows | В коротких controlled-сценариях работает, но в реальных агентных сессиях модель часто уходит в упрощение и недоиспользует инструменты | Для production-агента важна не только формальная поддержка tool calls, но и дисциплина выбора инструментов |
| 256K контекст и thinking mode | Большой контекст сам по себе не сделал модель более надежной в длинной инструкции | Длинный контекст не заменяет качественное следование агентным правилам |
| Патч chat template и preserve_thinking | Низкоуровневый баг со сбросом reasoning стал менее заметным, но качество agent loop радикально не выросло | Починка шаблона - это необходимая, но не достаточная мера |
| Unsloth Q6 и QAT GGUF для локального запуска | И Q6-сборка, и QAT-версия были удобны для локального deploy, но по сути не вывели модель в другой класс поведения: в сложном tool-use она все так же путалась и упрощала workflow | Тип квантованной локальной сборки влияет на удобство запуска и ресурсный профиль, но не лечит слабую агентную стратегию |
| Сильные бенчмарки и хорошая бумажная спецификация | На реальной задаче с AGENTS.md, MCP и несколькими источниками данных Qwen3.6 35B A3B оказался стабильнее | Выбирать модель для бизнеса надо по agent harness и целевому workflow, а не только по model card |
Как мы тестировали модель
Мы запускали Gemma 4 12B локально через llama.cpp в OpenAI-compatible режиме и проверяли несколько практических вариантов одной и той же модели: базовую instruction-версию, Unsloth Q6, затем QAT Q4_0 GGUF. Также мы поднимали multimodal-конфигурацию, подключали официальный шаблон чата и включали сохранение thinking, чтобы не путать проблемы шаблона с проблемами самой модели.
Это важное уточнение: слабое поведение в agentic-сценариях не исчезло после перехода с одной локальной сборки на другую. И Unsloth Q6, и позднее QAT-версия в сложном tool-use показывали схожий класс проблем: путаницу в инструментах, срыв дисциплины по шагам и стремление упростить задачу вместо полноценного рабочего прохода.
Дальше модель работала не в вакууме, а в нормальной агентной среде:
- длинные системные инструкции и
AGENTS.md - MCP-инструменты
- поиск и работа с веб-страницами
- чтение файлов и структурированные ответы
- многоходовые сессии, где нельзя просто ответить из головы
Это важный момент. Многие модели выглядят прилично в одношаговом диалоге, но проваливаются там, где нужно не просто знать, а дисциплинированно действовать внутри оркестрации.
Почему чат-модель и рабочая агентная модель - это не одно и то же
Для внешнего наблюдателя многие модели выглядят убедительно: они хорошо формулируют мысли, уверенно объясняют, знают термины и производят впечатление сильного собеседника. Но в агентных сценариях этого недостаточно.
Рабочая агентная модель должна уметь не только красиво отвечать, но и стабильно проходить цепочку действий:
- держать длинные инструкции в памяти;
- соблюдать ограничения и порядок шагов;
- выбирать нужный инструмент, а не самый удобный ответ;
- не терять обязательные параметры и структуру вызова;
- не сваливаться в упрощение там, где задача требует реальной последовательной работы.
Именно здесь у слабых agentic-моделей проявляется разрыв между внешней "умностью" и практической надежностью. В чате такая модель может казаться вполне хорошей. Но как только от нее требуется не разговор, а многоходовое выполнение задачи, начинаются срывы: поверхностные ответы, пропущенные шаги, недоиспользование инструментов, потеря структуры и деградация дисциплины по ходу сессии.
Поэтому для бизнеса принципиально важно отличать LLM как собеседника от LLM как исполнительного слоя в агентной системе. Это два разных класса требований, и далеко не каждая модель, которая красиво выглядит в демо, выдерживает второй режим работы.
Главная инженерная мысль
Для agentic-систем решает не только IQ модели в тексте, а ее способность стабильно проходить скучные, строгие, структурные шаги: держать многоходовый контекст, соблюдать ограничения, правильно вызывать инструменты и не разваливаться по ходу workflow.
Почему патч шаблона не решил главную проблему
Исправленный шаблон действительно нужен. Без него Gemma 4 могла терять continuity reasoning в multi-turn режиме, а tool calls деградировали сильнее. Но после патча выяснилось неприятное: сломано было не только plumbing.
Главная проблема в другом - в реальном агентном workflow модель слишком часто:
- упрощает задачу раньше времени;
- не добирает контекст, когда это необходимо;
- слабо держит длинные операционные инструкции;
- не проявляет нужной настойчивости в tool-use;
- выбирает ответ-подстановку вместо полноценного рабочего процесса.
Именно поэтому патч шаблона, preserve_thinking=true и переход на QAT мы рассматриваем как санитарный минимум, а не как настоящее решение. Они убирают часть транспортных и форматных проблем, но не превращают Gemma 4 12B в надежную агентную модель для сложных B2B-сценариев.
Где Gemma 4 12B еще может подойти, а где мы бы ее не ставили
Где модель еще уместна
Короткие assistant-сценарии, простые multimodal-вопросы, OCR/vision-подсказки, одиночные вызовы функций и легкие локальные ассистенты без глубокой оркестрации.
Где мы бы не делали на нее ставку
Сложные ИИ-агенты, длинные AGENTS.md, production tool-use, многошаговый ресерч, надежная работа с MCP и сценарии, где ошибка модели ломает весь workflow.
Почему Qwen3.6 35B A3B смотрится лучше
В том же локальном контуре Qwen3.6 35B A3B стабильнее держал инструкции, глубже использовал инструменты и реже пытался отговориться простым ответом там, где нужен был настоящий агентный проход.
Главный урок для CTO и интеграторов
Нельзя выбирать локальную LLM только по размерам, benchmark-листу и красивому релизу. Для бизнеса важнее, как модель ведет себя внутри вашего harness: с памятью, правилами, поиском, tool routing и длинной сессией.
Нужен честный выбор локальной LLM под ваш workflow?
Мы в AI Platforms тестируем модели не по рекламной карточке, а в реальном контуре: с tool-use, RAG, MCP, безопасностью, журналированием и нагрузкой. Если нужна частная LLM, агент или on-premise AI без иллюзий - соберем стек и покажем, что реально работает на ваших задачах.