idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
11/27/2025 10:03

Menschen und KI-Sprachmodelle reagieren auf verwirrenden Programmcode erstaunlich ähnlich

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes
Universität des Saarlandes

    Ein Forscherteam der Universität des Saarlandes und des Max-Planck-Instituts für Softwaresysteme hat erstmals gezeigt, dass die Reaktionen von Menschen und großen Sprachmodellen (LLMs) auf komplexen oder irreführenden Programmcode messbar signifikant übereinstimmen. Dabei wurde die Hirnaktivität der Testpersonen damit verglichen, wie unsicher sich die Sprachmodelle bei der Vorhersage waren. Darauf aufbauend hat das Team eine datengetriebene Methode entwickelt, um solche unklaren Stellen im Code automatisiert aufzuspüren – eine Chance für bessere KI-Assistenten in der Softwareentwicklung.

    Das Team um Sven Apel, Professor für Software Engineering der Universität des Saarlandes, und Mariya Toneva vom Max-Planck-Institut für Softwaresysteme untersuchte, wie Menschen und große Sprachmodelle auf verwirrenden Code reagieren. Die Merkmale solcher Code-Stellen, in der Fachsprache „Atoms of Confusion“ genannt, sind in der Informatik gut erforscht. Es handelt sich dabei um kurze, syntaktisch korrekte, aber für Menschen oft irreführende Programmiermuster, die selbst erfahrene Entwicklerinnen und Entwickler aus dem Konzept bringen können.

    Um herauszufinden, ob LLMs und Menschen über dieselben Stolperfallen „nachdenken“, verwendete das Forschungsteam einen interdisziplinären Ansatz: Zum einen nutzten sie Daten aus einer früheren Studie von Apel und Kollegen, in der Probanden verwirrende und saubere Code-Varianten lasen und dabei ihre Hirnaktivität und Aufmerksamkeit durch Elektroenzephalografie (EEG) und Eye Tracking gemessen wurden. Zum anderen analysierten sie die „Verwirrung“ von Sprachmodellen und deren Vertrauen in die eigenen Vorhersagen (Modellunsicherheit) anhand sogenannter Perplexity-Werte. Perplexity ist eine etablierte Metrik zur Bewertung von Sprachmodellen. Dabei wird auf der Grundlage von Wahrscheinlichkeiten quantifiziert, inwieweit die Vorhersagen von Textsequenzen unsicher sind.

    Das Ergebnis: Dort, wo Menschen an Programmcode hängen bleiben, zeigten auch die LLMs erhöhte Unsicherheit. Die EEG-Signale der Teilnehmer, insbesondere die sogenannte „Late Frontal Positivity“, die in der Sprachforschung mit unerwarteten Satzenden assoziiert ist, stieg genau dort an, wo auch das Sprachmodell einen Unsicherheitssprung zeigte. „Wir waren erstaunt, dass der Ausschlag in Hirnaktivität und der Modellunsicherheit signifikante Korrelationen aufwiesen“, sagt Informatik-Doktorand Youssef Abdelsalam, der von Mariya Toneva und Sven Apel betreut wurde und im Rahmen seines Studiums wesentlich an der Durchführung der Untersuchung beteiligt war.

    Auf Grundlage dieser Ähnlichkeit entwickelten die Forscher ein datengetriebenes Verfahren, das unklare Stellen im Code automatisch erkennt und markiert. In mehr als 60 Prozent der Fälle identifizierte der Algorithmus erfolgreich verwirrende Strukturen im Test-Code, die vorab bekannt und von Hand markiert waren, und entdeckte sogar mehr als 150 neue, bislang unerkannte Muster, die ebenfalls mit erhöhter Hirnaktivität einhergingen. „Mit dieser Arbeit gehen wir einen Schritt in Richtung eines besseren Verständnisses der Gemeinsamkeiten von Mensch und Maschine“, sagt die Max-Planck-Forscherin Mariya Toneva. „Wenn wir wissen, wann und warum LLMs und Menschen gleichermaßen ins Stolpern geraten, können wir Werkzeuge entwickeln, die Programmcode verständlicher machen und die Zusammenarbeit zwischen Mensch und KI deutlich verbessern“, sagt Professor Sven Apel.

    Mit ihrem Projekt schlagen die Forschenden eine Brücke zwischen Neurowissenschaften, Softwaretechnik und Künstlicher Intelligenz. Die aktuell als Pre-print veröffentlichte Studie wurde bei der „International Conference on Software Engineering (ICSE)“, einer der weltweit führenden Fachkonferenzen im Bereich der Softwareentwicklung, zur Veröffentlichung akzeptiert. Die Konferenz wird im April 2026 in Rio de Janeiro stattfinden. Die Autoren der Studie sind Youssef Abdelsalam, Norman Peitek, Anna-Maria Maurer, Mariya Toneva und Sven Apel.

    Redaktion:
    Philipp Zapf-Schramm
    Saarland Informatics Campus
    Tel: +49 681 9325 4509
    E-Mail: pzs@mpi-klsb.mpg.de

    Hintergrund Saarland Informatics Campus
    1000 Wissenschaftlerinnen und Wissenschaftler (darunter 540 Promovierende) und rund 2800 Studierende aus mehr als 80 Nationen machen den Saarland Informatics Campus (SIC) zu einem der führenden Standorte für Informatik in Deutschland und Europa. Vier weltweit angesehene Forschungsinstitute, nämlich das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Max-Planck-Institut für Informatik, das Max-Planck-Institut für Softwaresysteme, das Zentrum für Bioinformatik, sowie die Universität des Saarlandes mit drei vernetzten Fachbereichen und 24 Studiengängen decken das gesamte Themenspektrum der Informatik ab.


    Contact for scientific information:

    Prof. Dr. Sven Apel
    Lehrstuhl für Software Engineering
    Universität des Saarlandes
    Tel.: +49 681 302 57211
    E-Mail: apel@cs.uni-saarland.de

    Dr. Mariya Toneva
    Leiterin der Forschungsgruppe „Bridging AI and Neuroscience“
    Max-Planck-Institut für Softwaresysteme
    Tel.: +49 681 9303 9801
    E-Mail: mtoneva@mpi-sws.org


    Original publication:

    Preprint: Y. Abdelsalam, N. Peitek, A.-M. Maurer, M. Toneva, S. Apel (2025): „How do Humans and LLMs Process Confusing Code?“ arXiv:2508.18547v1 [cs.SE], 25. August 2025. https://arxiv.org/abs/2508.18547


    More information:

    https://www.se.cs.uni-saarland.de - Lehrstuhl für Software Engineering
    https://mtoneva.com/index.html - Max-Planck-Forschungsgruppe „Bridging AI and Neuroscience“


    Images

    Sven Apel, Informatik-Professor der Universität des Saarlandes
    Sven Apel, Informatik-Professor der Universität des Saarlandes
    Source: Oliver Dietze
    Copyright: Universität des Saarlandes

    Mariya Toneva, Informatik-Forscherin am Max-Planck-Institut für Softwaresysteme
    Mariya Toneva, Informatik-Forscherin am Max-Planck-Institut für Softwaresysteme
    Source: MPI-SWS
    Copyright: MPI-SWS


    Criteria of this press release:
    Business and commerce, Journalists, Scientists and scholars
    Economics / business administration, Information technology, Psychology, Social studies
    transregional, national
    Research results, Scientific conferences
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).