Исследование

10 июня 2026 · 11 мин чтения · AI Platforms

Gemma 4 12B в агентных сценариях: почему переоцененная модель не вытянула сложный tool-use

Мы несколько раз тестировали Gemma 4 12B в локальном контуре - на обычной instruction-версии, на сборке Unsloth Q6, затем на QAT GGUF, а также с обновленным chat template и сохранением thinking. Итог неприятный: часть низкоуровневых багов удалось уменьшить, но как рабочая модель для сложных ИИ-агентов линейка Gemma 4 12B все равно оказалась слабее ожиданий и заметно слабее Qwen3.6 35B A3B в том же окружении.

Gemma 4
tool-use
AI agents
local LLM
llama.cpp
QAT
Unsloth
MCP
Qwen

Важно: это не универсальный приговор всей модели

Gemma 4 12B может быть полезной для коротких диалогов, простых OCR/vision-задач и одиночных вызовов инструментов. Этот материал про другой режим: длинные инструкции, AGENTS.md, MCP, несколько инструментов, многошаговые решения и реальную агентную сессию.

Наблюдения

Какие проблемы повторялись в реальных сессиях

Не один случайный промах, а повторяющийся паттерн поведения.

Модель выбирает самый короткий путь

Вместо того чтобы последовательно использовать доступные инструменты и добирать контекст, модель слишком часто пытается ответить упрощенно и поверхностно. Она как будто экономит шаги даже там, где задача явно требует цепочки действий.

Длинные инструкции читаются, но плохо исполняются

Даже при наличии подробного AGENTS.md и явных правил работы с файлами, поиском и форматами модель склонна игнорировать часть требований и соскальзывать в примитивный режим ответа.

Tool-use работает в демо, но слабеет в реальном агенте

На коротких демонстрациях с 1 инструментом Gemma 4 может выглядеть нормально. Проблема начинается в открытой сессии, где надо выбирать между несколькими инструментами, держать ограничения и не терять дисциплину на 3-5 шагах.

Патч шаблона исправил plumbing, но не мышление

Обновленный chat template и сохранение thinking убрали часть технических сбоев в передаче reasoning/tool calls. Но главный продуктовый дефект остался: модель все равно недожимает сложные агентные сценарии.

Контекст

Почему ожидания были высокими

На бумаге у Gemma 4 12B все выглядело очень сильно. В официальной карточке модели Google пишет про 256K контекст, native function calling, agentic workflows, multimodal-режим и поддержку system-роли. В QAT-репозитории отдельно выложена версия для локального запуска через GGUF и llama.cpp, что делает модель особенно привлекательной для on-premise AI и частных LLM.

Официальные источники:

Из карточки модели следует прямая инженерная гипотеза: если у нас есть длинный контекст, thinking mode, structured tool use и локальный inference-стек, то модель должна быть рабочей базой для автономного агента. Именно это мы и проверяли.

Сравнение

Что было обещано и что мы увидели в локальном контуре

Это не академический benchmark, а прикладная инженерная оценка в локальном агентном контуре.

Что заявлено	Что мы увидели на практике	Инженерный вывод
Native function calling и agentic workflows	В коротких controlled-сценариях работает, но в реальных агентных сессиях модель часто уходит в упрощение и недоиспользует инструменты	Для production-агента важна не только формальная поддержка tool calls, но и дисциплина выбора инструментов
256K контекст и thinking mode	Большой контекст сам по себе не сделал модель более надежной в длинной инструкции	Длинный контекст не заменяет качественное следование агентным правилам
Патч chat template и preserve_thinking	Низкоуровневый баг со сбросом reasoning стал менее заметным, но качество agent loop радикально не выросло	Починка шаблона - это необходимая, но не достаточная мера
Unsloth Q6 и QAT GGUF для локального запуска	И Q6-сборка, и QAT-версия были удобны для локального deploy, но по сути не вывели модель в другой класс поведения: в сложном tool-use она все так же путалась и упрощала workflow	Тип квантованной локальной сборки влияет на удобство запуска и ресурсный профиль, но не лечит слабую агентную стратегию
Сильные бенчмарки и хорошая бумажная спецификация	На реальной задаче с AGENTS.md, MCP и несколькими источниками данных Qwen3.6 35B A3B оказался стабильнее	Выбирать модель для бизнеса надо по agent harness и целевому workflow, а не только по model card

Методика

Как мы тестировали модель

Мы запускали Gemma 4 12B локально через llama.cpp в OpenAI-compatible режиме и проверяли несколько практических вариантов одной и той же модели: базовую instruction-версию, Unsloth Q6, затем QAT Q4_0 GGUF. Также мы поднимали multimodal-конфигурацию, подключали официальный шаблон чата и включали сохранение thinking, чтобы не путать проблемы шаблона с проблемами самой модели.

Это важное уточнение: слабое поведение в agentic-сценариях не исчезло после перехода с одной локальной сборки на другую. И Unsloth Q6, и позднее QAT-версия в сложном tool-use показывали схожий класс проблем: путаницу в инструментах, срыв дисциплины по шагам и стремление упростить задачу вместо полноценного рабочего прохода.

Дальше модель работала не в вакууме, а в нормальной агентной среде:

длинные системные инструкции и AGENTS.md
MCP-инструменты
поиск и работа с веб-страницами
чтение файлов и структурированные ответы
многоходовые сессии, где нельзя просто ответить из головы

Это важный момент. Многие модели выглядят прилично в одношаговом диалоге, но проваливаются там, где нужно не просто знать, а дисциплинированно действовать внутри оркестрации.

Ключевой вывод

Почему чат-модель и рабочая агентная модель - это не одно и то же

Для внешнего наблюдателя многие модели выглядят убедительно: они хорошо формулируют мысли, уверенно объясняют, знают термины и производят впечатление сильного собеседника. Но в агентных сценариях этого недостаточно.

Рабочая агентная модель должна уметь не только красиво отвечать, но и стабильно проходить цепочку действий:

держать длинные инструкции в памяти;
соблюдать ограничения и порядок шагов;
выбирать нужный инструмент, а не самый удобный ответ;
не терять обязательные параметры и структуру вызова;
не сваливаться в упрощение там, где задача требует реальной последовательной работы.

Именно здесь у слабых agentic-моделей проявляется разрыв между внешней "умностью" и практической надежностью. В чате такая модель может казаться вполне хорошей. Но как только от нее требуется не разговор, а многоходовое выполнение задачи, начинаются срывы: поверхностные ответы, пропущенные шаги, недоиспользование инструментов, потеря структуры и деградация дисциплины по ходу сессии.

Поэтому для бизнеса принципиально важно отличать LLM как собеседника от LLM как исполнительного слоя в агентной системе. Это два разных класса требований, и далеко не каждая модель, которая красиво выглядит в демо, выдерживает второй режим работы.

Главная инженерная мысль

Для agentic-систем решает не только IQ модели в тексте, а ее способность стабильно проходить скучные, строгие, структурные шаги: держать многоходовый контекст, соблюдать ограничения, правильно вызывать инструменты и не разваливаться по ходу workflow.

Разбор

Почему патч шаблона не решил главную проблему

Исправленный шаблон действительно нужен. Без него Gemma 4 могла терять continuity reasoning в multi-turn режиме, а tool calls деградировали сильнее. Но после патча выяснилось неприятное: сломано было не только plumbing.

Главная проблема в другом - в реальном агентном workflow модель слишком часто:

упрощает задачу раньше времени;
не добирает контекст, когда это необходимо;
слабо держит длинные операционные инструкции;
не проявляет нужной настойчивости в tool-use;
выбирает ответ-подстановку вместо полноценного рабочего процесса.

Именно поэтому патч шаблона, preserve_thinking=true и переход на QAT мы рассматриваем как санитарный минимум, а не как настоящее решение. Они убирают часть транспортных и форматных проблем, но не превращают Gemma 4 12B в надежную агентную модель для сложных B2B-сценариев.

Практика внедрения

Где Gemma 4 12B еще может подойти, а где мы бы ее не ставили

Где модель еще уместна

Короткие assistant-сценарии, простые multimodal-вопросы, OCR/vision-подсказки, одиночные вызовы функций и легкие локальные ассистенты без глубокой оркестрации.

Где мы бы не делали на нее ставку

Сложные ИИ-агенты, длинные AGENTS.md, production tool-use, многошаговый ресерч, надежная работа с MCP и сценарии, где ошибка модели ломает весь workflow.

Почему Qwen3.6 35B A3B смотрится лучше

В том же локальном контуре Qwen3.6 35B A3B стабильнее держал инструкции, глубже использовал инструменты и реже пытался отговориться простым ответом там, где нужен был настоящий агентный проход.

Главный урок для CTO и интеграторов

Нельзя выбирать локальную LLM только по размерам, benchmark-листу и красивому релизу. Для бизнеса важнее, как модель ведет себя внутри вашего harness: с памятью, правилами, поиском, tool routing и длинной сессией.

Нужен честный выбор локальной LLM под ваш workflow?

Мы в AI Platforms тестируем модели не по рекламной карточке, а в реальном контуре: с tool-use, RAG, MCP, безопасностью, журналированием и нагрузкой. Если нужна частная LLM, агент или on-premise AI без иллюзий - соберем стек и покажем, что реально работает на ваших задачах.

Обсудить пилот