3D-аватары и цифровые люди

Что входит

Полный цикл создания цифрового человека: 3D или фотореалистичный

3D-моделинг и риг

Создание кастомного 3D-аватара: лицо, одежда, причёска. Риг с ARKit-блендшейпами (52 формы). Идл-анимации, жесты. Или фотореалистичный клон: одно фото → живой аватар через LongCat/PersonaLive/MuseTalk.

Голос и lip-sync

Синтез речи через XTTS v2, Silero, Chatterbox. Распознавание через Whisper. Lip-sync: Audio2Face для 3D-аватаров, LongCat/PersonaLive/MuseTalk/LivePortrait для фотореалистичных. Всё локально, без внешних API.

Окружение и сцена

3D-окружение под задачу: стойка ресепшн, выставочный стенд, виртуальный офис. Брендирование. Для фотореалистичных - настройка фона, ракурса, освещения. Адаптация под формат: инфомат, экран, планшет, веб-виджет.

Интеллект и база знаний

Подключение LLM (DeepSeek, Qwen, Llama) с RAG по корпоративным документам. Семантический поиск, цитирование источников, guardrails против галлюцинаций. Многошаговый диалог с эскалацией на оператора.

Интеграция с системами

Коннекторы к CRM, 1С, Telegram, корпоративному порталу. MCP-протокол для tool-use: создание заявок, проверка статуса, запись на приём. Интеграция с SIP-телефонией и СКУД.

Аналитика и мониторинг

Метрики взаимодействия: длительность диалога, resolution rate, эмоциональный фон. Тепловые карты. RAGAS-метрики качества ответов. Алерты при деградации точности. Экспорт отчётов.

Как мы создаём и внедряем

01

Аудит сценария и выбор формата

Определяем роль аватара и формат: 3D-модель (Unity) для кастомизации и брендирования, или фотореалистичный клон (LongCat/PersonaLive) для максимальной реалистичности. Фиксируем сценарии, каналы, метрики.
02

Производство аватара

3D: моделинг в Blender/Maya/Character Creator, риг с ARKit-блендшейпами, текстуры, идл-анимации. Фотореалистичный: настройка LongCat/PersonaLive на опорном фото, калибровка мимики и движений.
03

Сборка ИИ-контура

Развёртывание LLM + RAG на вашем железе. Настройка TTS/ASR под голос и язык. Интеграция lip-sync (Audio2Face для 3D, LongCat/MuseTalk для фото). Тестирование полного пайплайна.
04

Интеграция и тестирование

Подключение к CRM/1С, настройка каналов (инфомат, веб, Telegram). Нагрузочное тестирование. Итеративное улучшение качества ответов по метрикам RAGAS.
05

Промышленный запуск

Развёртывание в закрытом контуре, настройка мониторинга и алёртов. Обучение операторов эскалации. Передача документации и регламентов. SLA по согласованию.

Технологический стек

Актуальные компоненты пайплайна (2026)

Слой	Технологии	Назначение
3D-движок	Unity (URP), Unreal Engine	Реальный-time рендеринг, кроссплатформенность
Моделинг и риг	Blender, Maya, Character Creator, AutoRig	ARKit 52 blendshapes, текстуры, идл-анимации
Фотореалистичные	LongCat-Video-Avatar 1.5 (MIT, май 2026), PersonaLive (CVPR 2026), MuseTalk (окт 2024), LivePortrait (2025)	Одно фото → живой аватар, real-time lip-sync
Facial animation	NVIDIA Audio2Face, Unity FaceSync	Аудио в ARKit-блендшейпы, задержка < 200 мс
TTS (синтез речи)	XTTS v2, Silero, Chatterbox-Turbo, Kokoro	Локальный синтез, русский/английский, клонирование голоса
ASR (распознавание)	Whisper (large-v3), Silero STT	Локальное распознавание, русский/английский
LLM + RAG	DeepSeek, Qwen, Llama + Qdrant + bge-reranker	Диалог с контекстом, поиск по документам, цитирование
Безопасность	NeMo Guardrails, RBAC, журналирование	Фильтрация ответов, защита от инъекций, аудит
Развёртывание	Инфомат, планшет, веб (WebGPU/WebGL), Android/iOS	On-premise рендеринг, air-gap, без внешних API

3D или фотореалистичный - два формата под задачу

3D-аватар на Unity - полный контроль над внешностью, одеждой, окружением. Идеален для брендированных решений: ритейл, банки, ресепшн. Фотореалистичный клон через LongCat/PersonaLive/MuseTalk - одно фото → живое лицо с настоящей мимикой. Быстрее в production, не требует 3D-моделинга. Все компоненты работают локально: TTS/ASR, lip-sync, рендеринг. В отличие от облачных платформ (HeyGen, Synthesia, D-ID), фото и голос клиента не покидают контур. Air-gap: инфомат без интернета.

Сценарии применения

Где цифровой человек приносит измеримую пользу бизнесу

Розничный консультант

Инфомат или экран с аватаром в торговом зале. Консультирует по товарам, проверяет наличие в 1С, принимает заказы. 24/7, два языка, не устаёт.

Администратор ресепшн

Встречает посетителей, регистрирует, выдаёт пропуска, соединяет с сотрудником. Замена в ночные смены и часы пик. Интеграция с СКУД.

Цифровой амбассадор

Привлекает внимание на выставке, рассказывает о продуктах, собирает контакты в CRM. Работает без перерыва. Голосовое и сенсорное управление.

Обучающий персонаж

Тренажёр для отработки скриптов продаж, инструктаж по охране труда, онбординг. Аватар задаёт вопросы, оценивает ответы, ведёт к результату.

Виртуальный оператор на сайте

Веб-виджет с говорящим аватаром. Отвечает по базе знаний, помогает с навигацией, принимает заявки. Конверсия выше текстового чат-бота.

Цифровой сотрудник в Telegram

Голосовой бот с анимированным аватаром. Принимает заявки от сотрудников, отвечает по HR-политикам, создаёт тикеты в Jira.

Архитектура решения

Два формата аватара

3D-аватар (Unity): полный контроль над внешностью, одеждой, окружением. Риг с ARKit-блендшейпами, lip-sync через Audio2Face. Подходит для брендированных решений: ритейл, банки, ресепшн.

Фотореалистичный клон: одно опорное фото → живой аватар. Четыре модели под разные задачи:

LongCat-Video-Avatar 1.5 (MIT, май 2026) - SOTA-качество, до 1 мин, Whisper-Large-v3, 8 шагов.
PersonaLive (CVPR 2026) - бесконечный live-стрим из одного фото.
MuseTalk (окт 2024) - максимальная скорость: 30 fps, lip-sync < 100 мс.
LivePortrait (2025) - sub-10ms на кадр, industry-proven (Kuaishou, Douyin, WeChat).

Пайплайн в реальном времени

1. ASR (Whisper/Silero STT) - аудио с микрофона → текст. Локально.

2. NLU + RAG - LLM + поиск по Qdrant. Гибридный поиск + reranking → ответ с цитатой.

3. Guardrails (NeMo Guardrails) - проверка фактов, политики, PII.

4. TTS (XTTS v2 / Silero) - текст → аудио с заданным тембром и эмоцией.

5. Lip-sync: Audio2Face (3D, < 200 мс) или LongCat/MuseTalk/PersonaLive (фото, < 100 мс).

6. Рендеринг (Unity URP) или стриминг (RTMP/WebRTC) - кадр в эфире.

Железо

Инфомат / киоск: RTX 4060/4070 - 60 fps Full HD.
Экран / signage: RTX 4090 - до 4K.
Веб (WebGPU): рендеринг на GPU клиента.
Мобильные: оптимизированные low-poly, 30 fps.

Когда аватар не нужен

Если у вас текстовый FAQ и 10 посетителей в день - аватар избыточен. Если задача - ценник и наличие - хватит экрана с таблицей. Если аудитория не готова говорить с «роботом» - начните с текстового чат-бота. Цифровой человек окупается там, где нужен визуальный контакт: розница, ресепшн, выставки, обучение. Мы честно скажем, если аватар - не лучшее решение.

Ошибки, которых мы не допускаем

Типовые риски при создании цифровых людей, которые мы исключаем на этапе проектирования

Uncanny valley и отторжение

Слишком реалистичный, но неестественный аватар вызывает дискомфорт. Балансируем стилизацию и реализм. LongCat/PersonaLive - SOTA-мимика, LivePortrait - industry-proven.

Задержка > 1 секунды

Пауза разрушает иллюзию общения. Пайплайн оптимизирован под < 800 мс. MuseTalk: lip-sync < 100 мс. LivePortrait: < 10 мс/кадр. Параллельная обработка TTS и рендеринга.

Облачные TTS/ASR вместо локальных

Отправка аудио в ElevenLabs/Azure - риск утечки. Все компоненты локальны: XTTS v2, Silero, Whisper, LongCat, MuseTalk - без внешних API.

Облачный рендеринг и стриминг

Потоковая передача с облака - задержка и точка отказа. Рендеринг и стриминг на локальном GPU: нулевая сетевая задержка, работа без интернета.

Аватар без базы знаний

Красивая картинка без RAG - дорогой манекен. Каждый аватар подключён к базе знаний с цитированием. Ответ «я не знаю» с эскалацией честнее галлюцинации.

Выбор не того формата

3D-аватар там, где хватило бы фотореалистичного клона - перерасход бюджета. Фотореалистичный там, где нужен брендированный 3D-персонаж - потеря идентичности. Подбираем под задачу.

Каталог услуг

Другие услуги

Генеративное ИИ-радио и звуковая идентичность для бизнеса Локальная система создаёт непрерывный фирменный музыкальный эфир для кафе, ресторанов, отелей, … Машинное зрение Системы машинного зрения для промышленности: контроль качества, дефектоскопия, сортировка, изме… ИИ-боты и агенты Проектируем и внедряем интеллектуальных ботов в Telegram, WhatsApp, корпоративные порталы и веб… Видеоаналитика и безопасность на объекте Системы интеллектуальной видеоаналитики для промышленных объектов, складов и периметров: детекц…

Нужен цифровой консультант для вашего бизнеса?

Опишите сценарий и площадку - предложим формат (3D или фотореалистичный), стек технологий и план пилота.

Обсудить проект