3D-аватары и цифровые люди
Создаём визуальных ИИ-агентов в двух форматах: 3D-модели на Unity с ARKit-мимикой и фотореалистичные клоны через LongCat-Video-Avatar, PersonaLive, MuseTalk. Цифровые консультанты для розничных точек, выставок, ресепшн и обучения. Полный пайплайн: от модели до интеграции LLM, RAG и TTS. Рендеринг на вашем железе - данные клиентов не покидают периметр.
- 3D-модели (Unity) и фотореалистичные клоны (LongCat, PersonaLive)
- Lip-sync: Audio2Face, MuseTalk, LivePortrait - все локально
- LLM + RAG по базе знаний - осмысленные ответы с цитированием
- Unity-рендеринг в реальном времени, инфоматы, веб, мобильные
- On-premise: модель, голос, данные - всё внутри вашего контура
Что входит
Полный цикл создания цифрового человека: 3D или фотореалистичный
3D-моделинг и риг
Создание кастомного 3D-аватара: лицо, одежда, причёска. Риг с ARKit-блендшейпами (52 формы). Идл-анимации, жесты. Или фотореалистичный клон: одно фото → живой аватар через LongCat/PersonaLive/MuseTalk.
Голос и lip-sync
Синтез речи через XTTS v2, Silero, Chatterbox. Распознавание через Whisper. Lip-sync: Audio2Face для 3D-аватаров, LongCat/PersonaLive/MuseTalk/LivePortrait для фотореалистичных. Всё локально, без внешних API.
Окружение и сцена
3D-окружение под задачу: стойка ресепшн, выставочный стенд, виртуальный офис. Брендирование. Для фотореалистичных - настройка фона, ракурса, освещения. Адаптация под формат: инфомат, экран, планшет, веб-виджет.
Интеллект и база знаний
Подключение LLM (DeepSeek, Qwen, Llama) с RAG по корпоративным документам. Семантический поиск, цитирование источников, guardrails против галлюцинаций. Многошаговый диалог с эскалацией на оператора.
Интеграция с системами
Коннекторы к CRM, 1С, Telegram, корпоративному порталу. MCP-протокол для tool-use: создание заявок, проверка статуса, запись на приём. Интеграция с SIP-телефонией и СКУД.
Аналитика и мониторинг
Метрики взаимодействия: длительность диалога, resolution rate, эмоциональный фон. Тепловые карты. RAGAS-метрики качества ответов. Алерты при деградации точности. Экспорт отчётов.
Как мы создаём и внедряем
-
01
Аудит сценария и выбор формата
Определяем роль аватара и формат: 3D-модель (Unity) для кастомизации и брендирования, или фотореалистичный клон (LongCat/PersonaLive) для максимальной реалистичности. Фиксируем сценарии, каналы, метрики.
-
02
Производство аватара
3D: моделинг в Blender/Maya/Character Creator, риг с ARKit-блендшейпами, текстуры, идл-анимации. Фотореалистичный: настройка LongCat/PersonaLive на опорном фото, калибровка мимики и движений.
-
03
Сборка ИИ-контура
Развёртывание LLM + RAG на вашем железе. Настройка TTS/ASR под голос и язык. Интеграция lip-sync (Audio2Face для 3D, LongCat/MuseTalk для фото). Тестирование полного пайплайна.
-
04
Интеграция и тестирование
Подключение к CRM/1С, настройка каналов (инфомат, веб, Telegram). Нагрузочное тестирование. Итеративное улучшение качества ответов по метрикам RAGAS.
-
05
Промышленный запуск
Развёртывание в закрытом контуре, настройка мониторинга и алёртов. Обучение операторов эскалации. Передача документации и регламентов. SLA по согласованию.
Технологический стек
Актуальные компоненты пайплайна (2026)
| Слой | Технологии | Назначение |
|---|---|---|
| 3D-движок | Unity (URP), Unreal Engine | Реальный-time рендеринг, кроссплатформенность |
| Моделинг и риг | Blender, Maya, Character Creator, AutoRig | ARKit 52 blendshapes, текстуры, идл-анимации |
| Фотореалистичные | LongCat-Video-Avatar 1.5 (MIT, май 2026), PersonaLive (CVPR 2026), MuseTalk (окт 2024), LivePortrait (2025) | Одно фото → живой аватар, real-time lip-sync |
| Facial animation | NVIDIA Audio2Face, Unity FaceSync | Аудио в ARKit-блендшейпы, задержка < 200 мс |
| TTS (синтез речи) | XTTS v2, Silero, Chatterbox-Turbo, Kokoro | Локальный синтез, русский/английский, клонирование голоса |
| ASR (распознавание) | Whisper (large-v3), Silero STT | Локальное распознавание, русский/английский |
| LLM + RAG | DeepSeek, Qwen, Llama + Qdrant + bge-reranker | Диалог с контекстом, поиск по документам, цитирование |
| Безопасность | NeMo Guardrails, RBAC, журналирование | Фильтрация ответов, защита от инъекций, аудит |
| Развёртывание | Инфомат, планшет, веб (WebGPU/WebGL), Android/iOS | On-premise рендеринг, air-gap, без внешних API |
3D или фотореалистичный - два формата под задачу
3D-аватар на Unity - полный контроль над внешностью, одеждой, окружением. Идеален для брендированных решений: ритейл, банки, ресепшн. Фотореалистичный клон через LongCat/PersonaLive/MuseTalk - одно фото → живое лицо с настоящей мимикой. Быстрее в production, не требует 3D-моделинга. Все компоненты работают локально: TTS/ASR, lip-sync, рендеринг. В отличие от облачных платформ (HeyGen, Synthesia, D-ID), фото и голос клиента не покидают контур. Air-gap: инфомат без интернета.
Сценарии применения
Где цифровой человек приносит измеримую пользу бизнесу
Розничный консультант
Инфомат или экран с аватаром в торговом зале. Консультирует по товарам, проверяет наличие в 1С, принимает заказы. 24/7, два языка, не устаёт.
Администратор ресепшн
Встречает посетителей, регистрирует, выдаёт пропуска, соединяет с сотрудником. Замена в ночные смены и часы пик. Интеграция с СКУД.
Цифровой амбассадор
Привлекает внимание на выставке, рассказывает о продуктах, собирает контакты в CRM. Работает без перерыва. Голосовое и сенсорное управление.
Обучающий персонаж
Тренажёр для отработки скриптов продаж, инструктаж по охране труда, онбординг. Аватар задаёт вопросы, оценивает ответы, ведёт к результату.
Виртуальный оператор на сайте
Веб-виджет с говорящим аватаром. Отвечает по базе знаний, помогает с навигацией, принимает заявки. Конверсия выше текстового чат-бота.
Цифровой сотрудник в Telegram
Голосовой бот с анимированным аватаром. Принимает заявки от сотрудников, отвечает по HR-политикам, создаёт тикеты в Jira.
Архитектура решения
Два формата аватара
3D-аватар (Unity): полный контроль над внешностью, одеждой, окружением. Риг с ARKit-блендшейпами, lip-sync через Audio2Face. Подходит для брендированных решений: ритейл, банки, ресепшн.
Фотореалистичный клон: одно опорное фото → живой аватар. Четыре модели под разные задачи:
- LongCat-Video-Avatar 1.5 (MIT, май 2026) - SOTA-качество, до 1 мин, Whisper-Large-v3, 8 шагов.
- PersonaLive (CVPR 2026) - бесконечный live-стрим из одного фото.
- MuseTalk (окт 2024) - максимальная скорость: 30 fps, lip-sync < 100 мс.
- LivePortrait (2025) - sub-10ms на кадр, industry-proven (Kuaishou, Douyin, WeChat).
Пайплайн в реальном времени
1. ASR (Whisper/Silero STT) - аудио с микрофона → текст. Локально.
2. NLU + RAG - LLM + поиск по Qdrant. Гибридный поиск + reranking → ответ с цитатой.
3. Guardrails (NeMo Guardrails) - проверка фактов, политики, PII.
4. TTS (XTTS v2 / Silero) - текст → аудио с заданным тембром и эмоцией.
5. Lip-sync: Audio2Face (3D, < 200 мс) или LongCat/MuseTalk/PersonaLive (фото, < 100 мс).
6. Рендеринг (Unity URP) или стриминг (RTMP/WebRTC) - кадр в эфире.
Железо
- Инфомат / киоск: RTX 4060/4070 - 60 fps Full HD.
- Экран / signage: RTX 4090 - до 4K.
- Веб (WebGPU): рендеринг на GPU клиента.
- Мобильные: оптимизированные low-poly, 30 fps.
Когда аватар не нужен
Если у вас текстовый FAQ и 10 посетителей в день - аватар избыточен. Если задача - ценник и наличие - хватит экрана с таблицей. Если аудитория не готова говорить с «роботом» - начните с текстового чат-бота. Цифровой человек окупается там, где нужен визуальный контакт: розница, ресепшн, выставки, обучение. Мы честно скажем, если аватар - не лучшее решение.
Ошибки, которых мы не допускаем
Типовые риски при создании цифровых людей, которые мы исключаем на этапе проектирования
Uncanny valley и отторжение
Слишком реалистичный, но неестественный аватар вызывает дискомфорт. Балансируем стилизацию и реализм. LongCat/PersonaLive - SOTA-мимика, LivePortrait - industry-proven.
Задержка > 1 секунды
Пауза разрушает иллюзию общения. Пайплайн оптимизирован под < 800 мс. MuseTalk: lip-sync < 100 мс. LivePortrait: < 10 мс/кадр. Параллельная обработка TTS и рендеринга.
Облачные TTS/ASR вместо локальных
Отправка аудио в ElevenLabs/Azure - риск утечки. Все компоненты локальны: XTTS v2, Silero, Whisper, LongCat, MuseTalk - без внешних API.
Облачный рендеринг и стриминг
Потоковая передача с облака - задержка и точка отказа. Рендеринг и стриминг на локальном GPU: нулевая сетевая задержка, работа без интернета.
Аватар без базы знаний
Красивая картинка без RAG - дорогой манекен. Каждый аватар подключён к базе знаний с цитированием. Ответ «я не знаю» с эскалацией честнее галлюцинации.
Выбор не того формата
3D-аватар там, где хватило бы фотореалистичного клона - перерасход бюджета. Фотореалистичный там, где нужен брендированный 3D-персонаж - потеря идентичности. Подбираем под задачу.
Нужен цифровой консультант для вашего бизнеса?
Опишите сценарий и площадку - предложим формат (3D или фотореалистичный), стек технологий и план пилота.