idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
10.06.2026 11:00

DFKI auf der CVPR 2026: Von sprachgeführten 3D-Szenen bis zur Wirbelsäulensimulation

Jeremy Gob DFKI Kaiserslautern | Darmstadt
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, DFKI

    Mit mehreren Beiträgen auf der CVPR 2026 zeigte das DFKI die Breite seiner Forschung in der visuellen KI. Das Spektrum reichte von 3D-Szenenverstehen und relationalem Denken über multimodale Wahrnehmung bis hin zu Simulation, Generierung und Workshop-Beiträgen.

    Die IEEE/CVF Conference on Computer Vision and Pattern Recognition, kurz CVPR, zählt zu den wichtigsten Konferenzen der Computer-Vision-Forschung und fand in diesem Jahr vom 3. bis 7. Juni in Denver statt. Das DFKI war dort mit mehreren angenommenen Beiträgen aus unterschiedlichen Forschungsbereichen vertreten. Im Fokus stand dabei ein Paper aus dem Forschungsbereich Augmented Vision, das eine zentrale Schwäche heutiger 3D-Szenenanalyse adressiert: Systeme erkennen Objekte, verstehen aber oft nicht, wie sie zueinander in Beziehung stehen.

    Main-Conference-Papers aus dem DFKI

    Die DFKI-Beiträge zur Hauptkonferenz decken ein breites Spektrum der visuellen KI ab. Aus dem Forschungsbereich Augmented Vision stammen ReLaGS: Relational Language Gaussian Splatting, DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance, LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration sowie SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking.

    Hinzu kommen OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments und When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators und YieldSAT: A Multimodal Benchmark Dataset for HighResolution Crop Yield Prediction aus Kaiserslautern, Synthesizing Visual Concepts as Vision-Language Programs aus Darmstadt sowie SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens aus Saarbrücken. Zusammen reichen die Themen von offenem 3D-Szenenverstehen über multimodale Wahrnehmung und Sensorenkalibrierung bis hin zu medizinischer Simulation, synthetischen Trainingsdaten und generativer Bewegungsmodellierung.

    ReLaGS

    Innerhalb dieses Spektrums setzt ReLaGS einen markanten Akzent. Das Paper von Yaxu Xie, Abdalla Arafa, Alireza Javanmardi, Christen Millerdurai, Jia Cheng Hu, Shaoxiang Wang, Alain Pagani und Didier Stricker verbindet eine hierarchische 3D-Szenenrepräsentation mit einem expliziten Szenegraphen, der Beziehungen zwischen Objekten modelliert. So lassen sich nicht nur Objekte in einer Szene identifizieren, sondern auch relationale Anfragen wie „die Tasse neben dem Laptop“ oder feinere Teil-Ganzes-Bezüge innerhalb komplexer 3D-Umgebungen verarbeiten.

    Grundlage ist Gaussian Splatting, eine aktuelle Methode zur hochauflösenden 3D-Rekonstruktion. ReLaGS ergänzt sie um sprachliche Semantik und relationales Denken, organisiert Szenen hierarchisch – von Teilen über Objekte bis zum Gesamtraum – und kommt ohne szenenspezifisches Training aus.

    „Mit ReLaGS zeigten wir, dass 3D-Szenenverständnis nicht bei der Erkennung einzelner Objekte enden muss. Entscheidend ist, Beziehungen, Hierarchien und semantische Kontexte gemeinsam zu modellieren – nur so wird aus Rekonstruktion tatsächlich maschinelles Verstehen,“ sagt Alain Pagani, stellvertretender Forschungsbereichsleiter Augmented Vision am DFKI.

    Ergebnisse und Relevanz

    Im Paper berichten die Forschenden, dass ReLaGS einen vollständigen Szenegraphen in unter 15 Minuten erzeugt und mit mehr als 200 Bildern pro Sekunde rendert. Im Vergleich zu RelationField arbeitet der Ansatz damit 4,7-mal schneller und ist 7,6-mal speichereffizienter. Auf Benchmarks zur offenen 3D-Segmentierung, Szenegraphvorhersage und relationsgeleiteten Instanzsegmentierung erreicht ReLaGS zudem Ergebnisse auf State-of-the-Art-Niveau.

    Für die Forschung ist das relevant, weil 3D-Szenenverstehen zunehmend dort gebraucht wird, wo Maschinen in komplexen Umgebungen sicher und kontextsensitiv agieren sollen: in Robotik, XR, industriellen digitalen Zwillingen oder semantisch reichhaltigen Mensch-Maschine-Schnittstellen. ReLaGS zeigt, wie sich geometrische Rekonstruktion, Sprachsemantik und relationale Struktur in einem gemeinsamen Framework zusammenführen lassen.

    Weitere Konferenzbeiträge

    Über die Main Conference hinaus war das DFKI auch in weiteren Formaten der CVPR 2026 vertreten. Aus dem Forschungsbereich Augmented Vision wurden GHOST: Fast Category-Agnostic Hand-Object Interaction Reconstruction from RGB Videos Using Gaussian Splatting und ReConText3D: Replay-based Continual Text-to-3D Generation als Findings-Poster angenommen. TAUE: Training-free Noise Transplant and Cultivation Diffusion Model war ebenfalls unter den Findings-Postern zu finden.

    Hinzu kamen die Workshop-Beiträge Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning im AUTOPILOT-Workshop sowie Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes im SPAR-3D-Workshop. Damit zeigte sich die DFKI-Präsenz auf der CVPR 2026 nicht nur in der Hauptkonferenz, sondern auch in Formaten, in denen aktuelle methodische Fragen und neue Anwendungsfelder verhandelt werden.

    Alle Paper in der Übersicht

    ReLaGS: Relational Language Gaussian Splatting - Yaxu Xie, Abdalla Arafa, Alireza Javanmardi, Christen Millerdurai, Jia Cheng Hu, Shaoxiang Wang, Alain Pagani, Didier Stricker

    DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance - Shreedhar Govil, Didier Stricker, Jason Rambach

    LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration - Aditya Ranjan Dash, Ramy Battrawy, René Schuster, Didier Stricker

    SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking - Muhammad Saif Ullah Khan, Didier Stricker

    OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments - Hymalai Bello, Lala Ray, Joanna Sorysz, Sungho Suh, Paul Lukowicz

    When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators - Krzysztof Adamkiewicz, Brian Moser, Stanislav Frolov, Tobias Christian Nauen, Federico Raue, Andreas Dengel

    SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens - Anindita Ghosh, Vladislav Golyanik, Taku Komura, Philipp Slusallek, Christian Theobalt, Rishabh Dabral

    GHOST: Fast Category-Agnostic Hand-Object Interaction Reconstruction from RGB Videos Using Gaussian Splatting - Ahmed Tawfik Aboukhadra, Marcel Rogge, Nadia Robertini, Abdalla Arafa, Jameel Malik, Ahmed Elhayek, Didier Stricker

    Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning - Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani

    Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes - Shaoxiang Wang, Shihong Zhang, Christen Millerdurai, Rüdiger Westermann, Didier Stricker, Alain Pagani

    ReConText3D: Replay-based Continual Text-to-3D Generation - Muhammad Ahmed Ullah Khan, Muhammad Haris Bin Amir, Didier Stricker, Muhammad Zeshan Afzal

    TAUE: Training-free Noise Transplant and Cultivation Diffusion Model - Daichi Nagai, Ryugo Morita, Shunsuke Kitada, Hitoshi Iyatomi

    YieldSAT: A Multimodal Benchmark Dataset for HighResolution Crop Yield Prediction - Miro Miranda, Deepak Pathak, Patrick Helber, Benjamin Bischke, Hiba Najjar, Francisco Mena, Cristhian Sanchez, Akshay Pai, Diego Arenas, Matias Valdenegro-Toro, Marcela Charfuelan, Marlon Nuske, Andreas Dengel

    Synthesizing Visual Concepts as Vision-Language Programs - Antonia Wüst, Wolfgang Stammer, Hikaru Shindo, Lukas Helff, Devendra Singh Dhami, Kristian Kersting


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. Prof. h.c. Andreas Dengel, Geschäftsführender Direktor DFKI Kaiserslautern & Leiter des Forschungsbereichs Smarte Daten & Wissensdienste
    Mail: Andreas.Dengel@dfki.de

    Prof. Dr. Dipl.-Inform. Kristian Kersting, Leiter des Forschungsbereichs Grundlagen der Systemischen KI
    Mail: Kristian.Kersting@dfki.de

    Prof. Dr. Didier Stricker, Leiter des Forschungsbereichs Erweiterte Realität
    Mail: Didier.Stricker@dfki.de

    Prof. Dr. Paul Lukowicz, Leiter des Forschungsbereichs Eingebettete Intelligenz
    Mail: Paul.Lukowicz@dfki.de


    Originalpublikation:

    https://www.dfki.de/web/news/dfki-auf-der-cvpr-2026-von-sprachgefuehrten-3d-szen...


    Weitere Informationen:

    https://cvpr.thecvf.com/


    Bilder

    Das DFKI ist nicht nur mit zahlreichen Beiträgen auf der CVPR 2026 vertreten gewesen - sondern auch mit den WissenschaftlerInnen dahinter. Knapp eine Woche lang konnten sie Ihre Themen in Workshops diskutieren und auf der Mainstage vorstellen.
    Das DFKI ist nicht nur mit zahlreichen Beiträgen auf der CVPR 2026 vertreten gewesen - sondern auch ...
    Quelle: DFKI
    Copyright: DFKI


    Merkmale dieser Pressemitteilung:
    Journalisten
    Informationstechnik, Mathematik, Sprache / Literatur
    überregional
    Forschungsergebnisse, Wissenschaftliche Tagungen
    Deutsch


     

    Das DFKI ist nicht nur mit zahlreichen Beiträgen auf der CVPR 2026 vertreten gewesen - sondern auch mit den WissenschaftlerInnen dahinter. Knapp eine Woche lang konnten sie Ihre Themen in Workshops diskutieren und auf der Mainstage vorstellen.


    Zum Download

    x

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).