Der Ton formt das Gesicht: Neue Methode steuert digitale Avatare per Audiospur

idw-News App:

09.12.2025 12:30

Der Ton formt das Gesicht: Neue Methode steuert digitale Avatare per Audiospur

Philipp Zapf-Schramm Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für Informatik

Realistische digitale Avatare werden zunehmend relevanter, etwa in Virtual- und Augmented-Reality-Anwendungen, bei Videokonferenzen, in Filmen und Computerspielen, oder in der Medizin. Forschende des Saarbrücker Max-Planck-Instituts (MPI) für Informatik präsentieren nun auf den weltweit führenden Computergrafik-Konferenzen „SIGGRAPH“ und „SIGGRAPH Asia“ zwei neuartige Methoden, mit denen sich fotorealistische Ganzkörper-Avatare erzeugen und Kopf-Avatare allein per Audiospur steuern lassen.

Bisherige Verfahren zur Generation digitaler Avatare haben erhebliche Einschränkungen: Gesicht und Körper lassen sich oft nicht unabhängig steuern, Kleidung wirkt teils unnatürlich, die Darstellung ist häufig nur aus bestimmten Blickwinkeln überzeugend und Gesichtsanimationen sind oftmals steril und leblos. Mit den Arbeiten „EVA: Expressive Virtual Avatars from Multi-view Videos“ und „Audio-Driven Universal Gaussian Head Avatars“ gehen die Max-Planck-Forscher einen Schritt, diese Probleme zu beheben.

Das Paper „Audio-Driven Universal Gaussian Head Avatars“, das im Dezember auf der „SIGGRAPH Asia“ in Hongkong vorgestellt wird, beschreibt ein Verfahren, mit dem fotorealistische 3D-Kopf-Avatare allein aus Sprachaufnahmen automatisch gesteuert und animiert werden können. Grundlage dessen ist der neu entwickelte „Universal Head Avatar Prior (UHAP). Dabei handelt es sich um ein vortrainiertes Modell (engl. Prior), das auf vielen Videoaufnahmen echter Menschen aus einem öffentlich zugänglichen Datensatz trainiert wurde und dabei klar zwischen Identität (dem Aussehen einer bestimmten Person) und Mimik (Gesichtsausdrücke und Bewegungen) unterschieden kann.

Ein Audio-Encoder übersetzt anschließend Audiosignale direkt in die Mimik-Darstellung des digitalen Avatar Models. Anders als frühere Ansätze berücksichtigt es nicht nur Lippen- und Kieferbewegungen, sondern auch feine, audioabhängige Veränderungen wie Bewegungen im Mundinnenraum oder subtile Gesichtsausdrücke. Mit dem so entwickelten und vortrainierten Modell lassen sich in der Anwendung hochrealistische, dreidimensionale Gesichtsaufnahmen auch mit deutlich weniger Daten generieren. „Unser Ziel ist es, digitale Köpfe zu erzeugen, die sich nicht nur mit der Sprache synchronisieren, sondern auch sehr lebensecht wirken, mit Details wie Augenbrauenbewegungen und Blickrichtungswechseln“, sagt Kartik Teotia, Doktorand an der Universität des Saarlandes, der am MPI für Informatik forscht.

Neben Gesichtern werden am MPI für Informatik auch Methoden zur Erzeugung von Ganzkörper-Avataren erforscht. Das Paper „EVA: Expressive Virtual Avatars from Multi-view Videos“ wurde im August bei der Konferenz „SIGGRAPH“ in Vancouver veröffentlicht und beschreibt einen neuartigen Ansatz, bei dem die Modellierung von Bewegungen und äußerem Erscheinungsbild voneinander getrennt werden. Ein flexibles digitales Modell erfasst zunächst Körper, Hände und Gesicht sowie deren Bewegungen und die Mimik. Darüber legt eine zweite Ebene das äußere Erscheinungsbild, also Haut, Haare und Kleidung. „Mit EVA können wir so Bewegungen und Gesichtsausdrücke unabhängig voneinander realistisch erzeugen und auch aus neuen, zuvor nicht aufgezeichneten Blickwinkeln darstellen“, sagt Marc Habermann, Leiter der Forschungsgruppe „Graphics and Vision for Digital Humans“ am MPI für Informatik. Eine Voraussetzung ist zurzeit noch, dass das System mit Aufnahmen aus einem Labor des Instituts trainiert wird, bei denen eine Person aus mehr als einhundert Kameraperspektiven gefilmt wird.

„Mit diesen beiden Arbeiten bringen wir die Forschung an realistischen digitalen Avataren entscheidend voran. Solche Modelle könnten in Zukunft die Art, wie wir kommunizieren, zusammenarbeiten, oder neue Fähigkeiten erlernen, beispielsweise durch virtuelle Tutoren, grundlegend verändern und zwar weit über die Informatik hinaus“, sagt Professor Christian Theobalt, Direktor am Max-Planck-Institut für Informatik und Leiter der dortigen Abteilung „Visual Computing and Artificial Intelligence“, in der die beschriebenen Projekte erforscht werden. Theobalt ist zugleich Gründungsdirektor des Saarbrücken Research Centers for Visual Computing, Interaction and Artificial Intelligence (VIA), einer strategischen Forschungspartnerschaft mit Google.

Beide der oben beschriebenen Arbeiten erweckten bereits Interesse aus der Industrie: „EVA: Expressive Virtual Avatars from Multi-view Videos“ ist in Kooperation mit Google am Saarbrücker VIA-Center entwickelt worden. „Audio-Driven Universal Gaussian Head Avatars“ wurde in wissenschaftlicher Zusammenarbeit mit dem in London ansässigen Filmtechnologieunternehmen Flawlees AI entwickelt, das kürzlich durch das „Time Magazine“ als eines der 100 einflussreichsten Unternehmen 2025 ausgezeichnet wurde. Die „Visual-Dubbing“-Technologie von Flawless AI, die auf Grundlagenforschung aus Theobalts Abteilung basiert, ermöglicht es, die Lippenbewegungen von Schauspielern präzise an neue Sprachen anzupassen, was in Hollywood zunehmend Aufmerksamkeit erregt. Im Mai 2025 wurde der erste vollständig mit Visual-Dubbing überarbeitete Spielfilm, „Watch the Skies“, in den US-Kinos veröffentlicht.

Redaktion und Pressekontakt:
Philipp Zapf-Schramm
Max-Planck-Institut für Informatik
Tel: +49 681 9325 4509
E-Mail: pzs@mpi-klsb.mpg.de

Wissenschaftliche Ansprechpartner:

Prof. Dr. Christian Theobalt
Direktor, Abteilung „Visual Computing and Artificial Intelligence“
Max-Planck-Institut für Informatik
Mail: d6-sek@mpi-inf.mpg.de
Tel: +49 681 9325 4500

Dr. Marc Habermann
Gruppenleiter, Gruppe „Graphics and Vision for Digital Humans“
Max-Planck-Institut für Informatik
Mail: mhaberma@mpi-inf.mpg.de
Tel: +49 681 9325 4507

Originalpublikation:

Kartik Teotia, Helge Rhodin, Mohit Mendiratta, Hyeongwoo Kim, Marc Habermann, and Christian Theobalt. 2025. Audio-Driven Universal Gaussian Head Avatars. In SIGGRAPH Asia 2025 Conference Papers December 15–18, 2025, Hong Kong, Hong Kong. ACM, New York,NY, USA, 16 pages. https://doi.org/10.48550/arXiv.2509.18924

Hendrik Junkawitsch, Guoxing Sun, Heming Zhu, Christian Theobalt, and Marc Habermann. 2025. EVA: Expressive Virtual Avatars from Multi-view Videos.In Special Interest Group on Computer Graphics and Interactive TechniquesConference Conference Papers (SIGGRAPH Conference Papers ’25), August10–14, 2025, Vancouver, BC, Canada. ACM, New York, NY, USA, 20 pages. https://doi.org/10.1145/3721238.3730677

Weitere Informationen:

https://www.mpi-inf.mpg.de/de/departments/visual-computing-and-artificial-intell... Abteilung „Visual Computing and Artificial Intelligence“
https://gvdh.mpi-inf.mpg.de/index.html https://gvdh.mpi-inf.mpg.de/index.html Gruppe „Graphics and Vision for Digital Humans“
https://www.via-center.science/ Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence

Bilder

Dr. Marc Habermann, Kartik Teotia und Prof. Dr. Christian Theobalt (v.l.n.r.) im Multi-view Videostu ...
Quelle: Philipp Zapf-Schramm
Copyright: MPI für Informatik

Merkmale dieser Pressemitteilung:
Journalisten
Informationstechnik
überregional
Forschungsergebnisse
Deutsch

idw-News App:

Der Ton formt das Gesicht: Neue Methode steuert digitale Avatare per Audiospur

Philipp Zapf-Schramm Presse- und Öffentlichkeitsarbeit Max-Planck-Institut für Informatik

Wissenschaftliche Ansprechpartner:

Originalpublikation:

Weitere Informationen:

Dr. Marc Habermann, Kartik Teotia und Prof. Dr. Christian Theobalt (v.l.n.r.) im Multi-view Videostudio des Instituts.

Erweiterte Suche

Umfang der Suche

Datum der Veröffentlichung

Hilfe

Die Suche / Erweiterte Suche im idw-Archiv

Verknüpfungen

Klammern

Wortgruppen

Auswahlkriterien

Philipp Zapf-Schramm Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für Informatik