Mit Video Inference for Body Pose and Shape Estimation (VIBE) haben Wissenschaftler am Max-Planck-Institut für Intelligente Systeme ein neuronales Netzwerk entwickelt, das die videobasierte 3D-Bewegungserfassung genauer, schneller und kostengünstiger macht.
Tübingen. 17.06.2020 –- Wissenschaftler am Max-Planck-Institut für Intelligente Systeme (MPI-IS) entwickelten VIBE, ein algorithmisches Modell, das eine bis jetzt in dieser Form noch nicht möglich gewesene, detaillierte und genaue Erfassung menschlicher 3D-Bewegungen aus Videos ermöglicht. Sie beschreiben das Modell in dem vor kurzem veröffentlichten Artikel "VIBE: Video Inference for Body Pose and Shape Estimation", der heute auf der diesjährigen Conference on Computer Vision and Pattern Recognition (CVPR) vorgestellt wird. Die CVPR ist eine der renommiertesten Konferenzen im Bereich Computer Vision und findet bis 18. Juni 2020 online statt.
„Frühere Modelle leisteten gute Arbeit bei der Berechnung der menschlichen 3D-Körperhaltung und -form aus einem einzigen Bild. Allerdings waren videobasierte Modelle aufgrund begrenzter Daten nicht in der Lage, menschliche Bewegungen realistisch nachzuahmen", sagt Muhammed Kocabas, Doktorand in der Abteilung Perzeptive Systeme am MPI-IS und Co-Autor der Arbeit. „Mit VIBE haben wir diese Herausforderung erfolgreich gemeistert".
VIBE ist ein lernbasiertes Modell, das sich auf AMASS, einen am MPI-IS entwickelten groß angelegten Motion-Capture-Datensatz, der für Animation, Visualisierung und die Generierung von Trainingsdaten für Deep Learning verwendet werden kann, stützt. Die Wissenschaftler trainierten den VIBE-Algorithmus auf einer NVIDIA Grafikeinheit (GPU) nicht nur für die Berechnung menschlicher 3D-Bewegungen, sondern auch für die Unterscheidung zwischen realistischen und unrealistischen Bewegungen. AMASS wird hier als Quelle für echte menschliche Bewegungen verwendet. Aus einem einzelnen Video eines sich bewegenden Menschen extrahiert das Modell zunächst mit Hilfe eines Convolutional Neural Network (CNN) Bildmerkmale. CNN sind neuronale Netze, die im Bereich des maschinellen Lernens häufig zur Erkennung und Klassifizierung von Bildern verwendet werden. Die Weiterverarbeitung dieser Merkmale erfolgt dann durch ein Recurrentes Neuronales Netzwerk (RNN) – einem Netzwerk, das in der Lage ist, zeitliche Sequenzen zu klassifizieren und somit auch die sequentielle Natur der menschlichen Bewegung erfassen kann. Das Ergebnis ist eine fließende, realistische Darstellung der menschlichen Körperhaltung, -form und -bewegung.
„Was VIBE auszeichnet, ist die Fähigkeit, den gesamten Aktions- und Bewegungsradius einer Person im Detail zu erfassen. Dazu gehört auch die Art und Weise, wie sich Gliedmaßen und Extremitäten bewegen", sagt Nikos Athanasiou, der ebenfalls Doktorand in der Abteilung Perzeptive Systeme und Co-Autor der Arbeit ist. „Aus einem einzigen Video kann VIBE sehr schnell und ohne zusätzlichen Aufwand realistische menschliche Bewegungen generieren", so Nikos Athanasiou.
VIBE könnte einen entscheidenden Einfluss auf die 3D-Animation haben. Während hochwertige virtuelle Bewegungen schon seit langem zum festen Bestandteil von Animationsfilmen und Videospielen gehören, erfordert die Darstellung realistischer menschlicher Figuren und Posen im Allgemeinen einen hohen Grad an Feinarbeit: Um einige Sekunden Video zu bearbeiten, benötigen Grafiker und Techniker mehrere Stunden und einen aufwändigen Aufbau von Sensoren und Kameras. Mit VIBE wird die 3D-Bewegungserfassung einfacher, schneller und viel kostengünstiger.
„Zu verstehen, wie Menschen sich verhalten, wie sie sich zum Beispiel in einer Szene bewegen, ist eine grundlegende Aufgabe im Bereich der Computer Vision", sagt Michael J. Black, Direktor am Max-Planck-Institut für Intelligente Systeme in Tübingen und Leiter der Abteilung für Perzeptive Systeme. „Das VIBE-Modell trägt dazu bei, dieses Verständnis zu verbessern. Es ist für unterschiedlichste Anwendungsbereiche vielversprechend, von Augmented Reality über autonomes Fahren bis hin zu Robotik und medizinischen Applikationen. Präzisere dreidimensionale Darstellungen menschlicher Bewegungsabläufe werden dazu beitragen, dass Computer zu vollwertigeren Partnern des Menschen werden.“
Pressekontakt:
Valérie Callaghan
Max-Planck-Institut für Intelligente Systeme
Tel: +49 7071 601 1832
Mobil: +49 151 1560 4276
valerie.callaghan@tuebingen.mpg.de
Über uns:
Am Max-Planck-Institut für Intelligente Systeme wollen wir die Prinzipien von Wahrnehmung, Handeln und Lernen in intelligenten Systemen verstehen.
Unser Institut ist auf zwei Standorte verteilt: Stuttgart und Tübingen. Die Forschung am Standort Stuttgart umfasst Kleinrobotik, Selbstorganisation, haptische Wahrnehmung, bio-inspirierte Systeme, medizinische Robotik und physikalische Intelligenz. Der Tübinger Standort des Instituts konzentriert sich auf maschinelles Lernen, Computer Vision und die Steuerung intelligenter Systeme.
www.is.mpg.de
Das MPI-IS ist eines der 86 Max-Planck-Institute der Max-Planck-Gesellschaft. Sie ist Deutschlands erfolgreichste Forschungsorganisation. Seit ihrer Gründung im Jahr 1948 sind nicht weniger als 18 Nobelpreisträger aus den Reihen ihrer Wissenschaftler hervorgegangen, womit sich die MPG mit den besten und renommiertesten Forschungseinrichtungen weltweit messen kann.
Alle Institute betreiben Grundlagenforschung im Dienste der Allgemeinheit in den Natur-, Lebens-, Sozial- und Geisteswissenschaften. Die Max-Planck-Institute konzentrieren sich auf Forschungsfelder, die besonders innovativ sind oder besonders hohe Anforderungen an die Finanzierung oder den Zeitaufwand stellen. Und ihr Forschungsspektrum entwickelt sich ständig weiter: Neue Institute werden gegründet, um Antworten auf zukunftsträchtige wissenschaftliche Fragen zu finden, während andere geschlossen werden, wenn beispielsweise ihr Forschungsfeld an den Universitäten weit verbreitet ist. Diese kontinuierliche Erneuerung erhält den Spielraum, den die Max-Planck-Gesellschaft braucht, um schnell auf wegweisende wissenschaftliche Entwicklungen reagieren zu können.
www.mpg.de
Die Abteilung Perzeptive Systeme kombiniert Computer Vision, maschinelles Lernen und Computergrafik, um Computer darin zu schulen, Menschen und ihr Verhalten in Bildern und Videos zu verstehen. Der einzigartige Ansatz des Teams beginnt mit dem Erlernen von kompakten parametrischen 3D-Modellen der menschlichen Gestalt und Bewegung. Die Wissenschaftler*innen verwenden diese, um menschliches Verhalten im Kontext von 3D-Szenen zu extrahieren und zu analysieren. Die Abteilung hat etwa 45 Mitarbeiter*innen und Student*innen sowie weitere angegliederte Forscher*innen. Sie betreibt einzigartige 4D-Scan-Einrichtungen, die mit 60 Bildern pro Sekunde hochpräzise und detaillierte 3D-Netze von Körper, Gesicht, Händen und Füßen erzeugen. Die Abteilung setzt auch tragbare Motion-Capture-Anzüge, Flugroboter und kamerabasierte Systeme zur Aufzeichnung menschlicher Bewegungen ein.
https://ps.is.mpg.de/
http://Die vollständige Arbeit lesen Sie hier: https://arxiv.org/pdf/1912.05656.pdf
VIBE macht virtuelle Avatare realistischer denn je.
MPI-IS
Merkmale dieser Pressemitteilung:
Journalisten, Wirtschaftsvertreter
fachunabhängig
überregional
Wissenschaftliche Publikationen
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).