NVIDIA выпускает модели Audio2Face и комплект разработки с открытым исходным кодом

NVIDIA — не часто публикует свои разработки в открытом доступе. И это несмотря на то, что со временем появились альтернативы (масштабирование/генерация кадров), но, стоит добавить, что в итоге они сделали исключение, несмотря на отсутствие особой конкуренции.

Компания NVIDIA объявила, что её технология Audio2Face теперь доступна по лицензии MIT с открытым исходным кодом. Этот инструмент, входящий в портфолио генеративного ИИ компании, обеспечивает анимацию лиц и синхронизацию губ в реальном времени с аудиовходом. Анализируя фонемы, интонацию и эмоциональный тон, Audio2Face генерирует потоки данных, которые можно применять к 3D-персонажам, делая их более выразительными и реалистичными.

Модель уже поддерживается плагинами для Autodesk Maya и Unreal Engine 5, а NVIDIA также выпускает SDK, фреймворк для обучения и примеры наборов данных. Разработчики смогут дорабатывать существующие модели или адаптировать их для своих проектов, расширяя возможности Audio2Face за пределы текущих интеграций.

Доступные модели включают регрессионный и диффузионный варианты для синхронизации губ, а также сети Audio2Emotion, которые распознают эмоциональное состояние по голосу. Разработчики игр уже применяют эту технологию в производстве. Компания Farm 51 использовала Audio2Face в игре Chernobylite 2: Exclusion Zone для ускорения анимационных процессов и создания более реалистичных персонажей. Среди других партнёров — Codemasters, GSC Game World, NetEase, Perfect World, Convai, Inworld AI, Reallusion, Streamlabs и UneeQ.

Способность системы обходить традиционные методы захвата движения делает её привлекательным вариантом для студий, стремящихся к более быстрому производственному процессу. NVIDIA описывает Audio2Face как часть своего расширенного набора инструментов RTX для разработчиков на базе искусственного интеллекта, который также включает в себя SDK для нейронной компрессии текстур и глобального освещения.

Выпуская Audio2Face по открытой лицензии, компания приглашает разработчиков, исследователей и студентов адаптировать и расширить возможности технологии для более широкого спектра приложений — от видеоигр до цифровых людей в сфере обслуживания клиентов.

26
12
Комментарии:  12
Ваш комментарий

Nvidia ничем не отличается от других компаний например той же АМД или Интела. И просто так не станет переводить свои разработки в открытый доступ. Причин может быть множество от того что они выполнили свою задачу как например было с Физиксом до того что они просто мягко говоря не отличаются качеством как с FSR. В доброту же компаний верят лишь совсем наивные люди.

В данном случае Audio2Face по мне скорей всего выполнил свою задачу как физикс в свое время.

В доброту же компаний верят лишь совсем наивные люди

Моргни дважды если тебя принудили это написать, а то до этого ты постоянно воевал против одной лишь амудэ и притягивал их даже местами туда, куда в принципе притянуть было невозможно). А так мысль верная, не бывает хороших корпоратов, бывают через чур фанатичные хомяки

Главное Нигера в рекламу сунуть, а то обидется😂

Это делают ленивые разработчики а ленивые разработчики со временем становятся лузерами. Вкалывают роботы

Копим на карты с трассировкой звука

Отсутствие конкуренции выдумано, FSR и XeSS видимо не существуют в этой реальности. Открыли ровно столько, сколько нужно чтобы закрепить всех на платформе CUDA, а не из щедрости. Это не исключение, а бизнес модель по созданию экосистемы вокруг железа RTX. Сотни их проектов уже лежат на GitHub, включая целые фреймворки типа RAPIDS и NeMo.

смотря как это работает. если в реальном времени во время игры из звуков это очень крутая тема

Да, в Сталкаче было заметно. И как они потом, заявляли, - внесли правки в липсинк.

Который, будет даунгрейдить старые видеокарты, и по возможности "сжигать" топовые во славу Куртки.

ЗАГРУЗИТЬ ВСЕ КОММЕНТАРИИ