Услуга

3D-аватары и цифровые люди

Создаём визуальных ИИ-агентов в двух форматах: 3D-модели на Unity с ARKit-мимикой и фотореалистичные клоны через LongCat-Video-Avatar, PersonaLive, MuseTalk. Цифровые консультанты для розничных точек, выставок, ресепшн и обучения. Полный пайплайн: от модели до интеграции LLM, RAG и TTS. Рендеринг на вашем железе - данные клиентов не покидают периметр.

  • 3D-модели (Unity) и фотореалистичные клоны (LongCat, PersonaLive)
  • Lip-sync: Audio2Face, MuseTalk, LivePortrait - все локально
  • LLM + RAG по базе знаний - осмысленные ответы с цитированием
  • Unity-рендеринг в реальном времени, инфоматы, веб, мобильные
  • On-premise: модель, голос, данные - всё внутри вашего контура

Что входит

Полный цикл создания цифрового человека: 3D или фотореалистичный

3D-моделинг и риг

Создание кастомного 3D-аватара: лицо, одежда, причёска. Риг с ARKit-блендшейпами (52 формы). Идл-анимации, жесты. Или фотореалистичный клон: одно фото → живой аватар через LongCat/PersonaLive/MuseTalk.

Голос и lip-sync

Синтез речи через XTTS v2, Silero, Chatterbox. Распознавание через Whisper. Lip-sync: Audio2Face для 3D-аватаров, LongCat/PersonaLive/MuseTalk/LivePortrait для фотореалистичных. Всё локально, без внешних API.

Окружение и сцена

3D-окружение под задачу: стойка ресепшн, выставочный стенд, виртуальный офис. Брендирование. Для фотореалистичных - настройка фона, ракурса, освещения. Адаптация под формат: инфомат, экран, планшет, веб-виджет.

Интеллект и база знаний

Подключение LLM (DeepSeek, Qwen, Llama) с RAG по корпоративным документам. Семантический поиск, цитирование источников, guardrails против галлюцинаций. Многошаговый диалог с эскалацией на оператора.

Интеграция с системами

Коннекторы к CRM, 1С, Telegram, корпоративному порталу. MCP-протокол для tool-use: создание заявок, проверка статуса, запись на приём. Интеграция с SIP-телефонией и СКУД.

Аналитика и мониторинг

Метрики взаимодействия: длительность диалога, resolution rate, эмоциональный фон. Тепловые карты. RAGAS-метрики качества ответов. Алерты при деградации точности. Экспорт отчётов.

Как мы создаём и внедряем

  1. 01

    Аудит сценария и выбор формата

    Определяем роль аватара и формат: 3D-модель (Unity) для кастомизации и брендирования, или фотореалистичный клон (LongCat/PersonaLive) для максимальной реалистичности. Фиксируем сценарии, каналы, метрики.

  2. 02

    Производство аватара

    3D: моделинг в Blender/Maya/Character Creator, риг с ARKit-блендшейпами, текстуры, идл-анимации. Фотореалистичный: настройка LongCat/PersonaLive на опорном фото, калибровка мимики и движений.

  3. 03

    Сборка ИИ-контура

    Развёртывание LLM + RAG на вашем железе. Настройка TTS/ASR под голос и язык. Интеграция lip-sync (Audio2Face для 3D, LongCat/MuseTalk для фото). Тестирование полного пайплайна.

  4. 04

    Интеграция и тестирование

    Подключение к CRM/1С, настройка каналов (инфомат, веб, Telegram). Нагрузочное тестирование. Итеративное улучшение качества ответов по метрикам RAGAS.

  5. 05

    Промышленный запуск

    Развёртывание в закрытом контуре, настройка мониторинга и алёртов. Обучение операторов эскалации. Передача документации и регламентов. SLA по согласованию.

Технологический стек

Актуальные компоненты пайплайна (2026)

СлойТехнологииНазначение
3D-движок Unity (URP), Unreal Engine Реальный-time рендеринг, кроссплатформенность
Моделинг и риг Blender, Maya, Character Creator, AutoRig ARKit 52 blendshapes, текстуры, идл-анимации
Фотореалистичные LongCat-Video-Avatar 1.5 (MIT, май 2026), PersonaLive (CVPR 2026), MuseTalk (окт 2024), LivePortrait (2025) Одно фото → живой аватар, real-time lip-sync
Facial animation NVIDIA Audio2Face, Unity FaceSync Аудио в ARKit-блендшейпы, задержка < 200 мс
TTS (синтез речи) XTTS v2, Silero, Chatterbox-Turbo, Kokoro Локальный синтез, русский/английский, клонирование голоса
ASR (распознавание) Whisper (large-v3), Silero STT Локальное распознавание, русский/английский
LLM + RAG DeepSeek, Qwen, Llama + Qdrant + bge-reranker Диалог с контекстом, поиск по документам, цитирование
Безопасность NeMo Guardrails, RBAC, журналирование Фильтрация ответов, защита от инъекций, аудит
Развёртывание Инфомат, планшет, веб (WebGPU/WebGL), Android/iOS On-premise рендеринг, air-gap, без внешних API

3D или фотореалистичный - два формата под задачу

3D-аватар на Unity - полный контроль над внешностью, одеждой, окружением. Идеален для брендированных решений: ритейл, банки, ресепшн. Фотореалистичный клон через LongCat/PersonaLive/MuseTalk - одно фото → живое лицо с настоящей мимикой. Быстрее в production, не требует 3D-моделинга. Все компоненты работают локально: TTS/ASR, lip-sync, рендеринг. В отличие от облачных платформ (HeyGen, Synthesia, D-ID), фото и голос клиента не покидают контур. Air-gap: инфомат без интернета.

Сценарии применения

Где цифровой человек приносит измеримую пользу бизнесу

Розничный консультант

Инфомат или экран с аватаром в торговом зале. Консультирует по товарам, проверяет наличие в 1С, принимает заказы. 24/7, два языка, не устаёт.

Администратор ресепшн

Встречает посетителей, регистрирует, выдаёт пропуска, соединяет с сотрудником. Замена в ночные смены и часы пик. Интеграция с СКУД.

Цифровой амбассадор

Привлекает внимание на выставке, рассказывает о продуктах, собирает контакты в CRM. Работает без перерыва. Голосовое и сенсорное управление.

Обучающий персонаж

Тренажёр для отработки скриптов продаж, инструктаж по охране труда, онбординг. Аватар задаёт вопросы, оценивает ответы, ведёт к результату.

Виртуальный оператор на сайте

Веб-виджет с говорящим аватаром. Отвечает по базе знаний, помогает с навигацией, принимает заявки. Конверсия выше текстового чат-бота.

Цифровой сотрудник в Telegram

Голосовой бот с анимированным аватаром. Принимает заявки от сотрудников, отвечает по HR-политикам, создаёт тикеты в Jira.

Архитектура решения

Два формата аватара

3D-аватар (Unity): полный контроль над внешностью, одеждой, окружением. Риг с ARKit-блендшейпами, lip-sync через Audio2Face. Подходит для брендированных решений: ритейл, банки, ресепшн.

Фотореалистичный клон: одно опорное фото → живой аватар. Четыре модели под разные задачи:

  • LongCat-Video-Avatar 1.5 (MIT, май 2026) - SOTA-качество, до 1 мин, Whisper-Large-v3, 8 шагов.
  • PersonaLive (CVPR 2026) - бесконечный live-стрим из одного фото.
  • MuseTalk (окт 2024) - максимальная скорость: 30 fps, lip-sync < 100 мс.
  • LivePortrait (2025) - sub-10ms на кадр, industry-proven (Kuaishou, Douyin, WeChat).

Пайплайн в реальном времени

1. ASR (Whisper/Silero STT) - аудио с микрофона → текст. Локально.

2. NLU + RAG - LLM + поиск по Qdrant. Гибридный поиск + reranking → ответ с цитатой.

3. Guardrails (NeMo Guardrails) - проверка фактов, политики, PII.

4. TTS (XTTS v2 / Silero) - текст → аудио с заданным тембром и эмоцией.

5. Lip-sync: Audio2Face (3D, < 200 мс) или LongCat/MuseTalk/PersonaLive (фото, < 100 мс).

6. Рендеринг (Unity URP) или стриминг (RTMP/WebRTC) - кадр в эфире.

Железо

  • Инфомат / киоск: RTX 4060/4070 - 60 fps Full HD.
  • Экран / signage: RTX 4090 - до 4K.
  • Веб (WebGPU): рендеринг на GPU клиента.
  • Мобильные: оптимизированные low-poly, 30 fps.

Когда аватар не нужен

Если у вас текстовый FAQ и 10 посетителей в день - аватар избыточен. Если задача - ценник и наличие - хватит экрана с таблицей. Если аудитория не готова говорить с «роботом» - начните с текстового чат-бота. Цифровой человек окупается там, где нужен визуальный контакт: розница, ресепшн, выставки, обучение. Мы честно скажем, если аватар - не лучшее решение.

Ошибки, которых мы не допускаем

Типовые риски при создании цифровых людей, которые мы исключаем на этапе проектирования

Uncanny valley и отторжение

Слишком реалистичный, но неестественный аватар вызывает дискомфорт. Балансируем стилизацию и реализм. LongCat/PersonaLive - SOTA-мимика, LivePortrait - industry-proven.

Задержка > 1 секунды

Пауза разрушает иллюзию общения. Пайплайн оптимизирован под < 800 мс. MuseTalk: lip-sync < 100 мс. LivePortrait: < 10 мс/кадр. Параллельная обработка TTS и рендеринга.

Облачные TTS/ASR вместо локальных

Отправка аудио в ElevenLabs/Azure - риск утечки. Все компоненты локальны: XTTS v2, Silero, Whisper, LongCat, MuseTalk - без внешних API.

Облачный рендеринг и стриминг

Потоковая передача с облака - задержка и точка отказа. Рендеринг и стриминг на локальном GPU: нулевая сетевая задержка, работа без интернета.

Аватар без базы знаний

Красивая картинка без RAG - дорогой манекен. Каждый аватар подключён к базе знаний с цитированием. Ответ «я не знаю» с эскалацией честнее галлюцинации.

Выбор не того формата

3D-аватар там, где хватило бы фотореалистичного клона - перерасход бюджета. Фотореалистичный там, где нужен брендированный 3D-персонаж - потеря идентичности. Подбираем под задачу.

Нужен цифровой консультант для вашего бизнеса?

Опишите сценарий и площадку - предложим формат (3D или фотореалистичный), стек технологий и план пилота.