idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
27.11.2025 10:03

Menschen und KI-Sprachmodelle reagieren auf verwirrenden Programmcode erstaunlich ähnlich

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes
Universität des Saarlandes

    Ein Forscherteam der Universität des Saarlandes und des Max-Planck-Instituts für Softwaresysteme hat erstmals gezeigt, dass die Reaktionen von Menschen und großen Sprachmodellen (LLMs) auf komplexen oder irreführenden Programmcode messbar signifikant übereinstimmen. Dabei wurde die Hirnaktivität der Testpersonen damit verglichen, wie unsicher sich die Sprachmodelle bei der Vorhersage waren. Darauf aufbauend hat das Team eine datengetriebene Methode entwickelt, um solche unklaren Stellen im Code automatisiert aufzuspüren – eine Chance für bessere KI-Assistenten in der Softwareentwicklung.

    Das Team um Sven Apel, Professor für Software Engineering der Universität des Saarlandes, und Mariya Toneva vom Max-Planck-Institut für Softwaresysteme untersuchte, wie Menschen und große Sprachmodelle auf verwirrenden Code reagieren. Die Merkmale solcher Code-Stellen, in der Fachsprache „Atoms of Confusion“ genannt, sind in der Informatik gut erforscht. Es handelt sich dabei um kurze, syntaktisch korrekte, aber für Menschen oft irreführende Programmiermuster, die selbst erfahrene Entwicklerinnen und Entwickler aus dem Konzept bringen können.

    Um herauszufinden, ob LLMs und Menschen über dieselben Stolperfallen „nachdenken“, verwendete das Forschungsteam einen interdisziplinären Ansatz: Zum einen nutzten sie Daten aus einer früheren Studie von Apel und Kollegen, in der Probanden verwirrende und saubere Code-Varianten lasen und dabei ihre Hirnaktivität und Aufmerksamkeit durch Elektroenzephalografie (EEG) und Eye Tracking gemessen wurden. Zum anderen analysierten sie die „Verwirrung“ von Sprachmodellen und deren Vertrauen in die eigenen Vorhersagen (Modellunsicherheit) anhand sogenannter Perplexity-Werte. Perplexity ist eine etablierte Metrik zur Bewertung von Sprachmodellen. Dabei wird auf der Grundlage von Wahrscheinlichkeiten quantifiziert, inwieweit die Vorhersagen von Textsequenzen unsicher sind.

    Das Ergebnis: Dort, wo Menschen an Programmcode hängen bleiben, zeigten auch die LLMs erhöhte Unsicherheit. Die EEG-Signale der Teilnehmer, insbesondere die sogenannte „Late Frontal Positivity“, die in der Sprachforschung mit unerwarteten Satzenden assoziiert ist, stieg genau dort an, wo auch das Sprachmodell einen Unsicherheitssprung zeigte. „Wir waren erstaunt, dass der Ausschlag in Hirnaktivität und der Modellunsicherheit signifikante Korrelationen aufwiesen“, sagt Informatik-Doktorand Youssef Abdelsalam, der von Mariya Toneva und Sven Apel betreut wurde und im Rahmen seines Studiums wesentlich an der Durchführung der Untersuchung beteiligt war.

    Auf Grundlage dieser Ähnlichkeit entwickelten die Forscher ein datengetriebenes Verfahren, das unklare Stellen im Code automatisch erkennt und markiert. In mehr als 60 Prozent der Fälle identifizierte der Algorithmus erfolgreich verwirrende Strukturen im Test-Code, die vorab bekannt und von Hand markiert waren, und entdeckte sogar mehr als 150 neue, bislang unerkannte Muster, die ebenfalls mit erhöhter Hirnaktivität einhergingen. „Mit dieser Arbeit gehen wir einen Schritt in Richtung eines besseren Verständnisses der Gemeinsamkeiten von Mensch und Maschine“, sagt die Max-Planck-Forscherin Mariya Toneva. „Wenn wir wissen, wann und warum LLMs und Menschen gleichermaßen ins Stolpern geraten, können wir Werkzeuge entwickeln, die Programmcode verständlicher machen und die Zusammenarbeit zwischen Mensch und KI deutlich verbessern“, sagt Professor Sven Apel.

    Mit ihrem Projekt schlagen die Forschenden eine Brücke zwischen Neurowissenschaften, Softwaretechnik und Künstlicher Intelligenz. Die aktuell als Pre-print veröffentlichte Studie wurde bei der „International Conference on Software Engineering (ICSE)“, einer der weltweit führenden Fachkonferenzen im Bereich der Softwareentwicklung, zur Veröffentlichung akzeptiert. Die Konferenz wird im April 2026 in Rio de Janeiro stattfinden. Die Autoren der Studie sind Youssef Abdelsalam, Norman Peitek, Anna-Maria Maurer, Mariya Toneva und Sven Apel.

    Redaktion:
    Philipp Zapf-Schramm
    Saarland Informatics Campus
    Tel: +49 681 9325 4509
    E-Mail: pzs@mpi-klsb.mpg.de

    Hintergrund Saarland Informatics Campus
    1000 Wissenschaftlerinnen und Wissenschaftler (darunter 540 Promovierende) und rund 2800 Studierende aus mehr als 80 Nationen machen den Saarland Informatics Campus (SIC) zu einem der führenden Standorte für Informatik in Deutschland und Europa. Vier weltweit angesehene Forschungsinstitute, nämlich das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Max-Planck-Institut für Informatik, das Max-Planck-Institut für Softwaresysteme, das Zentrum für Bioinformatik, sowie die Universität des Saarlandes mit drei vernetzten Fachbereichen und 24 Studiengängen decken das gesamte Themenspektrum der Informatik ab.


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. Sven Apel
    Lehrstuhl für Software Engineering
    Universität des Saarlandes
    Tel.: +49 681 302 57211
    E-Mail: apel@cs.uni-saarland.de

    Dr. Mariya Toneva
    Leiterin der Forschungsgruppe „Bridging AI and Neuroscience“
    Max-Planck-Institut für Softwaresysteme
    Tel.: +49 681 9303 9801
    E-Mail: mtoneva@mpi-sws.org


    Originalpublikation:

    Preprint: Y. Abdelsalam, N. Peitek, A.-M. Maurer, M. Toneva, S. Apel (2025): „How do Humans and LLMs Process Confusing Code?“ arXiv:2508.18547v1 [cs.SE], 25. August 2025. https://arxiv.org/abs/2508.18547


    Weitere Informationen:

    https://www.se.cs.uni-saarland.de - Lehrstuhl für Software Engineering
    https://mtoneva.com/index.html - Max-Planck-Forschungsgruppe „Bridging AI and Neuroscience“


    Bilder

    Sven Apel, Informatik-Professor der Universität des Saarlandes
    Sven Apel, Informatik-Professor der Universität des Saarlandes
    Quelle: Oliver Dietze
    Copyright: Universität des Saarlandes

    Mariya Toneva, Informatik-Forscherin am Max-Planck-Institut für Softwaresysteme
    Mariya Toneva, Informatik-Forscherin am Max-Planck-Institut für Softwaresysteme
    Quelle: MPI-SWS
    Copyright: MPI-SWS


    Merkmale dieser Pressemitteilung:
    Journalisten, Wirtschaftsvertreter, Wissenschaftler
    Gesellschaft, Informationstechnik, Psychologie, Wirtschaft
    überregional
    Forschungsergebnisse, Wissenschaftliche Tagungen
    Deutsch


     

    Sven Apel, Informatik-Professor der Universität des Saarlandes


    Zum Download

    x

    Mariya Toneva, Informatik-Forscherin am Max-Planck-Institut für Softwaresysteme


    Zum Download

    x

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).