Menschen und KI-Sprachmodelle reagieren auf verwirrenden Programmcode erstaunlich ähnlich

Share on:

11/27/2025 10:03

Menschen und KI-Sprachmodelle reagieren auf verwirrenden Programmcode erstaunlich ähnlich

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes
Universität des Saarlandes

Ein Forscherteam der Universität des Saarlandes und des Max-Planck-Instituts für Softwaresysteme hat erstmals gezeigt, dass die Reaktionen von Menschen und großen Sprachmodellen (LLMs) auf komplexen oder irreführenden Programmcode messbar signifikant übereinstimmen. Dabei wurde die Hirnaktivität der Testpersonen damit verglichen, wie unsicher sich die Sprachmodelle bei der Vorhersage waren. Darauf aufbauend hat das Team eine datengetriebene Methode entwickelt, um solche unklaren Stellen im Code automatisiert aufzuspüren – eine Chance für bessere KI-Assistenten in der Softwareentwicklung.

Das Team um Sven Apel, Professor für Software Engineering der Universität des Saarlandes, und Mariya Toneva vom Max-Planck-Institut für Softwaresysteme untersuchte, wie Menschen und große Sprachmodelle auf verwirrenden Code reagieren. Die Merkmale solcher Code-Stellen, in der Fachsprache „Atoms of Confusion“ genannt, sind in der Informatik gut erforscht. Es handelt sich dabei um kurze, syntaktisch korrekte, aber für Menschen oft irreführende Programmiermuster, die selbst erfahrene Entwicklerinnen und Entwickler aus dem Konzept bringen können.

Um herauszufinden, ob LLMs und Menschen über dieselben Stolperfallen „nachdenken“, verwendete das Forschungsteam einen interdisziplinären Ansatz: Zum einen nutzten sie Daten aus einer früheren Studie von Apel und Kollegen, in der Probanden verwirrende und saubere Code-Varianten lasen und dabei ihre Hirnaktivität und Aufmerksamkeit durch Elektroenzephalografie (EEG) und Eye Tracking gemessen wurden. Zum anderen analysierten sie die „Verwirrung“ von Sprachmodellen und deren Vertrauen in die eigenen Vorhersagen (Modellunsicherheit) anhand sogenannter Perplexity-Werte. Perplexity ist eine etablierte Metrik zur Bewertung von Sprachmodellen. Dabei wird auf der Grundlage von Wahrscheinlichkeiten quantifiziert, inwieweit die Vorhersagen von Textsequenzen unsicher sind.

Das Ergebnis: Dort, wo Menschen an Programmcode hängen bleiben, zeigten auch die LLMs erhöhte Unsicherheit. Die EEG-Signale der Teilnehmer, insbesondere die sogenannte „Late Frontal Positivity“, die in der Sprachforschung mit unerwarteten Satzenden assoziiert ist, stieg genau dort an, wo auch das Sprachmodell einen Unsicherheitssprung zeigte. „Wir waren erstaunt, dass der Ausschlag in Hirnaktivität und der Modellunsicherheit signifikante Korrelationen aufwiesen“, sagt Informatik-Doktorand Youssef Abdelsalam, der von Mariya Toneva und Sven Apel betreut wurde und im Rahmen seines Studiums wesentlich an der Durchführung der Untersuchung beteiligt war.

Auf Grundlage dieser Ähnlichkeit entwickelten die Forscher ein datengetriebenes Verfahren, das unklare Stellen im Code automatisch erkennt und markiert. In mehr als 60 Prozent der Fälle identifizierte der Algorithmus erfolgreich verwirrende Strukturen im Test-Code, die vorab bekannt und von Hand markiert waren, und entdeckte sogar mehr als 150 neue, bislang unerkannte Muster, die ebenfalls mit erhöhter Hirnaktivität einhergingen. „Mit dieser Arbeit gehen wir einen Schritt in Richtung eines besseren Verständnisses der Gemeinsamkeiten von Mensch und Maschine“, sagt die Max-Planck-Forscherin Mariya Toneva. „Wenn wir wissen, wann und warum LLMs und Menschen gleichermaßen ins Stolpern geraten, können wir Werkzeuge entwickeln, die Programmcode verständlicher machen und die Zusammenarbeit zwischen Mensch und KI deutlich verbessern“, sagt Professor Sven Apel.

Mit ihrem Projekt schlagen die Forschenden eine Brücke zwischen Neurowissenschaften, Softwaretechnik und Künstlicher Intelligenz. Die aktuell als Pre-print veröffentlichte Studie wurde bei der „International Conference on Software Engineering (ICSE)“, einer der weltweit führenden Fachkonferenzen im Bereich der Softwareentwicklung, zur Veröffentlichung akzeptiert. Die Konferenz wird im April 2026 in Rio de Janeiro stattfinden. Die Autoren der Studie sind Youssef Abdelsalam, Norman Peitek, Anna-Maria Maurer, Mariya Toneva und Sven Apel.

Redaktion:
Philipp Zapf-Schramm
Saarland Informatics Campus
Tel: +49 681 9325 4509
E-Mail: pzs@mpi-klsb.mpg.de

Hintergrund Saarland Informatics Campus
1000 Wissenschaftlerinnen und Wissenschaftler (darunter 540 Promovierende) und rund 2800 Studierende aus mehr als 80 Nationen machen den Saarland Informatics Campus (SIC) zu einem der führenden Standorte für Informatik in Deutschland und Europa. Vier weltweit angesehene Forschungsinstitute, nämlich das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Max-Planck-Institut für Informatik, das Max-Planck-Institut für Softwaresysteme, das Zentrum für Bioinformatik, sowie die Universität des Saarlandes mit drei vernetzten Fachbereichen und 24 Studiengängen decken das gesamte Themenspektrum der Informatik ab.

Contact for scientific information:

Prof. Dr. Sven Apel
Lehrstuhl für Software Engineering
Universität des Saarlandes
Tel.: +49 681 302 57211
E-Mail: apel@cs.uni-saarland.de

Dr. Mariya Toneva
Leiterin der Forschungsgruppe „Bridging AI and Neuroscience“
Max-Planck-Institut für Softwaresysteme
Tel.: +49 681 9303 9801
E-Mail: mtoneva@mpi-sws.org

Original publication:

Preprint: Y. Abdelsalam, N. Peitek, A.-M. Maurer, M. Toneva, S. Apel (2025): „How do Humans and LLMs Process Confusing Code?“ arXiv:2508.18547v1 [cs.SE], 25. August 2025. https://arxiv.org/abs/2508.18547

More information:

https://www.se.cs.uni-saarland.de - Lehrstuhl für Software Engineering
https://mtoneva.com/index.html - Max-Planck-Forschungsgruppe „Bridging AI and Neuroscience“

Images

Sven Apel, Informatik-Professor der Universität des Saarlandes
Source: Oliver Dietze
Copyright: Universität des Saarlandes

Mariya Toneva, Informatik-Forscherin am Max-Planck-Institut für Softwaresysteme
Source: MPI-SWS
Copyright: MPI-SWS

Criteria of this press release:
Business and commerce, Journalists, Scientists and scholars
Economics / business administration, Information technology, Psychology, Social studies
transregional, national
Research results, Scientific conferences
German

idw – Informationsdienst Wissenschaft

idw-News App:

Menschen und KI-Sprachmodelle reagieren auf verwirrenden Programmcode erstaunlich ähnlich

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes
Universität des Saarlandes

Contact for scientific information:

Original publication:

More information:

idw-News App:

Menschen und KI-Sprachmodelle reagieren auf verwirrenden Programmcode erstaunlich ähnlich

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes Universität des Saarlandes

Contact for scientific information:

Original publication:

More information:

Advanced Search

Extent of search

Date of publication

Help

Search / advanced search of the idw archives

Combination of search terms

Brackets

Phrases

Selection criteria

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes
Universität des Saarlandes