DFKI auf der CVPR 2026: Von sprachgeführten 3D-Szenen bis zur Wirbelsäulensimulation

idw-News App:

10.06.2026 11:00

DFKI auf der CVPR 2026: Von sprachgeführten 3D-Szenen bis zur Wirbelsäulensimulation

Jeremy Gob DFKI Kaiserslautern | Darmstadt
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, DFKI

Mit mehreren Beiträgen auf der CVPR 2026 zeigte das DFKI die Breite seiner Forschung in der visuellen KI. Das Spektrum reichte von 3D-Szenenverstehen und relationalem Denken über multimodale Wahrnehmung bis hin zu Simulation, Generierung und Workshop-Beiträgen.

Die IEEE/CVF Conference on Computer Vision and Pattern Recognition, kurz CVPR, zählt zu den wichtigsten Konferenzen der Computer-Vision-Forschung und fand in diesem Jahr vom 3. bis 7. Juni in Denver statt. Das DFKI war dort mit mehreren angenommenen Beiträgen aus unterschiedlichen Forschungsbereichen vertreten. Im Fokus stand dabei ein Paper aus dem Forschungsbereich Augmented Vision, das eine zentrale Schwäche heutiger 3D-Szenenanalyse adressiert: Systeme erkennen Objekte, verstehen aber oft nicht, wie sie zueinander in Beziehung stehen.

Main-Conference-Papers aus dem DFKI

Die DFKI-Beiträge zur Hauptkonferenz decken ein breites Spektrum der visuellen KI ab. Aus dem Forschungsbereich Augmented Vision stammen ReLaGS: Relational Language Gaussian Splatting, DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance, LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration sowie SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking.

Hinzu kommen OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments und When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators und YieldSAT: A Multimodal Benchmark Dataset for HighResolution Crop Yield Prediction aus Kaiserslautern, Synthesizing Visual Concepts as Vision-Language Programs aus Darmstadt sowie SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens aus Saarbrücken. Zusammen reichen die Themen von offenem 3D-Szenenverstehen über multimodale Wahrnehmung und Sensorenkalibrierung bis hin zu medizinischer Simulation, synthetischen Trainingsdaten und generativer Bewegungsmodellierung.

ReLaGS

Innerhalb dieses Spektrums setzt ReLaGS einen markanten Akzent. Das Paper von Yaxu Xie, Abdalla Arafa, Alireza Javanmardi, Christen Millerdurai, Jia Cheng Hu, Shaoxiang Wang, Alain Pagani und Didier Stricker verbindet eine hierarchische 3D-Szenenrepräsentation mit einem expliziten Szenegraphen, der Beziehungen zwischen Objekten modelliert. So lassen sich nicht nur Objekte in einer Szene identifizieren, sondern auch relationale Anfragen wie „die Tasse neben dem Laptop“ oder feinere Teil-Ganzes-Bezüge innerhalb komplexer 3D-Umgebungen verarbeiten.

Grundlage ist Gaussian Splatting, eine aktuelle Methode zur hochauflösenden 3D-Rekonstruktion. ReLaGS ergänzt sie um sprachliche Semantik und relationales Denken, organisiert Szenen hierarchisch – von Teilen über Objekte bis zum Gesamtraum – und kommt ohne szenenspezifisches Training aus.

„Mit ReLaGS zeigten wir, dass 3D-Szenenverständnis nicht bei der Erkennung einzelner Objekte enden muss. Entscheidend ist, Beziehungen, Hierarchien und semantische Kontexte gemeinsam zu modellieren – nur so wird aus Rekonstruktion tatsächlich maschinelles Verstehen,“ sagt Alain Pagani, stellvertretender Forschungsbereichsleiter Augmented Vision am DFKI.

Ergebnisse und Relevanz

Im Paper berichten die Forschenden, dass ReLaGS einen vollständigen Szenegraphen in unter 15 Minuten erzeugt und mit mehr als 200 Bildern pro Sekunde rendert. Im Vergleich zu RelationField arbeitet der Ansatz damit 4,7-mal schneller und ist 7,6-mal speichereffizienter. Auf Benchmarks zur offenen 3D-Segmentierung, Szenegraphvorhersage und relationsgeleiteten Instanzsegmentierung erreicht ReLaGS zudem Ergebnisse auf State-of-the-Art-Niveau.

Für die Forschung ist das relevant, weil 3D-Szenenverstehen zunehmend dort gebraucht wird, wo Maschinen in komplexen Umgebungen sicher und kontextsensitiv agieren sollen: in Robotik, XR, industriellen digitalen Zwillingen oder semantisch reichhaltigen Mensch-Maschine-Schnittstellen. ReLaGS zeigt, wie sich geometrische Rekonstruktion, Sprachsemantik und relationale Struktur in einem gemeinsamen Framework zusammenführen lassen.

Weitere Konferenzbeiträge

Über die Main Conference hinaus war das DFKI auch in weiteren Formaten der CVPR 2026 vertreten. Aus dem Forschungsbereich Augmented Vision wurden GHOST: Fast Category-Agnostic Hand-Object Interaction Reconstruction from RGB Videos Using Gaussian Splatting und ReConText3D: Replay-based Continual Text-to-3D Generation als Findings-Poster angenommen. TAUE: Training-free Noise Transplant and Cultivation Diffusion Model war ebenfalls unter den Findings-Postern zu finden.

Hinzu kamen die Workshop-Beiträge Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning im AUTOPILOT-Workshop sowie Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes im SPAR-3D-Workshop. Damit zeigte sich die DFKI-Präsenz auf der CVPR 2026 nicht nur in der Hauptkonferenz, sondern auch in Formaten, in denen aktuelle methodische Fragen und neue Anwendungsfelder verhandelt werden.

Alle Paper in der Übersicht

ReLaGS: Relational Language Gaussian Splatting - Yaxu Xie, Abdalla Arafa, Alireza Javanmardi, Christen Millerdurai, Jia Cheng Hu, Shaoxiang Wang, Alain Pagani, Didier Stricker

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance - Shreedhar Govil, Didier Stricker, Jason Rambach

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration - Aditya Ranjan Dash, Ramy Battrawy, René Schuster, Didier Stricker

SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking - Muhammad Saif Ullah Khan, Didier Stricker

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments - Hymalai Bello, Lala Ray, Joanna Sorysz, Sungho Suh, Paul Lukowicz

When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators - Krzysztof Adamkiewicz, Brian Moser, Stanislav Frolov, Tobias Christian Nauen, Federico Raue, Andreas Dengel

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens - Anindita Ghosh, Vladislav Golyanik, Taku Komura, Philipp Slusallek, Christian Theobalt, Rishabh Dabral

GHOST: Fast Category-Agnostic Hand-Object Interaction Reconstruction from RGB Videos Using Gaussian Splatting - Ahmed Tawfik Aboukhadra, Marcel Rogge, Nadia Robertini, Abdalla Arafa, Jameel Malik, Ahmed Elhayek, Didier Stricker

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning - Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani

Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes - Shaoxiang Wang, Shihong Zhang, Christen Millerdurai, Rüdiger Westermann, Didier Stricker, Alain Pagani

ReConText3D: Replay-based Continual Text-to-3D Generation - Muhammad Ahmed Ullah Khan, Muhammad Haris Bin Amir, Didier Stricker, Muhammad Zeshan Afzal

TAUE: Training-free Noise Transplant and Cultivation Diffusion Model - Daichi Nagai, Ryugo Morita, Shunsuke Kitada, Hitoshi Iyatomi

YieldSAT: A Multimodal Benchmark Dataset for HighResolution Crop Yield Prediction - Miro Miranda, Deepak Pathak, Patrick Helber, Benjamin Bischke, Hiba Najjar, Francisco Mena, Cristhian Sanchez, Akshay Pai, Diego Arenas, Matias Valdenegro-Toro, Marcela Charfuelan, Marlon Nuske, Andreas Dengel

Synthesizing Visual Concepts as Vision-Language Programs - Antonia Wüst, Wolfgang Stammer, Hikaru Shindo, Lukas Helff, Devendra Singh Dhami, Kristian Kersting

Wissenschaftliche Ansprechpartner:

Prof. Dr. Prof. h.c. Andreas Dengel, Geschäftsführender Direktor DFKI Kaiserslautern & Leiter des Forschungsbereichs Smarte Daten & Wissensdienste
Mail: Andreas.Dengel@dfki.de

Prof. Dr. Dipl.-Inform. Kristian Kersting, Leiter des Forschungsbereichs Grundlagen der Systemischen KI
Mail: Kristian.Kersting@dfki.de

Prof. Dr. Didier Stricker, Leiter des Forschungsbereichs Erweiterte Realität
Mail: Didier.Stricker@dfki.de

Prof. Dr. Paul Lukowicz, Leiter des Forschungsbereichs Eingebettete Intelligenz
Mail: Paul.Lukowicz@dfki.de

Originalpublikation:

https://www.dfki.de/web/news/dfki-auf-der-cvpr-2026-von-sprachgefuehrten-3d-szen...

Weitere Informationen:

https://cvpr.thecvf.com/

Bilder

Das DFKI ist nicht nur mit zahlreichen Beiträgen auf der CVPR 2026 vertreten gewesen - sondern auch ...
Quelle: DFKI
Copyright: DFKI

Merkmale dieser Pressemitteilung:
Journalisten
Informationstechnik, Mathematik, Sprache / Literatur
überregional
Forschungsergebnisse, Wissenschaftliche Tagungen
Deutsch

idw-News App:

DFKI auf der CVPR 2026: Von sprachgeführten 3D-Szenen bis zur Wirbelsäulensimulation

Jeremy Gob DFKI Kaiserslautern | Darmstadt Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, DFKI

Wissenschaftliche Ansprechpartner:

Originalpublikation:

Weitere Informationen:

Das DFKI ist nicht nur mit zahlreichen Beiträgen auf der CVPR 2026 vertreten gewesen - sondern auch mit den WissenschaftlerInnen dahinter. Knapp eine Woche lang konnten sie Ihre Themen in Workshops diskutieren und auf der Mainstage vorstellen.

Erweiterte Suche

Umfang der Suche

Datum der Veröffentlichung

Hilfe

Die Suche / Erweiterte Suche im idw-Archiv

Verknüpfungen

Klammern

Wortgruppen

Auswahlkriterien

Jeremy Gob DFKI Kaiserslautern | Darmstadt
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, DFKI