idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
09/05/2025 13:17

Wenn KI den Tutor ersetzt

Gunnar Bartsch Presse- und Öffentlichkeitsarbeit
Julius-Maximilians-Universität Würzburg

    Eignen sich Sprachmodelle wie ChatGPT als unabhängige Lehrassistenten in den Naturwissenschaften? Diese Frage hat ein Forschungsteam der Universität Würzburg untersucht.

    Künstliche Intelligenz ist aus dem Alltag vieler Menschen nicht mehr wegzudenken. Große Sprachmodelle (LLM) wie ChatGPT, Gemini oder Copilot schreiben für sie Briefe und Hausarbeiten, geben Ausflugstipps im Urlaub oder beantworten Fragen zu allen nur erdenklichen Themen.

    Auch an Universitäten ist der Einsatz künstlicher Intelligenz in vielen Bereichen längst Routine. Inwieweit große Sprachmodelle (LLMs) Studierende in den Naturwissenschaften als unbeaufsichtigte Tutoren unterstützen können: Dieser Frage ist jetzt ein Forschungsteam an der Julius-Maximilians-Universität Würzburg (JMU) nachgegangen. Seine Ergebnisse hat es als Preprint auf arXiv veröffentlicht.

    Ein frei zugängliches Evaluationstool

    Eine bislang vor allem in der Spektroskopie von Nanomaterialien forschende Arbeitsgruppe der Physikalischen Chemie hat dafür jetzt ein Tool entwickelt, das das Thermodynamik-Verständnis moderner LLMs prüft – insbesondere, ob deren Können über bloßes Faktenwissen hinausgeht. Das Werkzeug mit dem Namen UTQA (Undergraduate Thermodynamics Question Answering) ist frei zugänglich und soll Lehrende und Forschende dabei unterstützen, LLMs fair und fachspezifisch zu evaluieren – und Fortschritte messbar zu machen.

    „Unser Wunsch ist, dass KI uns eines Tages als Partner unbeaufsichtigt in der Lehre zur Seite stehen kann – etwa in Form kompetenter Chatbots, die bei der Vor- und Nachbereitung von Vorlesungen individuell auf die Bedürfnisse jedes Studierenden eingehen. Heute sind wir ganz klar noch nicht so weit, aber der Fortschritt ist atemberaubend“, sagt Projektleiter Professor Tobias Hertel. „Mit UTQA zeigen wir, wo aktuelle Sprachmodelle bereits überzeugen und wo sie systematisch scheitern – genau das brauchen Dozentinnen und Dozenten, um den Einsatz in der Lehre verantwortungsvoll planen zu können.“

    Aus der Lehre heraus entstanden

    Bereits seit dem Wintersemester 2023 setzt Hertels Team LLMs in der Thermodynamik-Vorlesung mit über 150 Studierenden für wöchentliche Wissensstand-Abfragen ein. Dabei zeigten Modelle wie ChatGPT-3.5 und ChatGPT-4 ihre Stärken, aber auch deutliche Schwächen.

    Daraus entstand der Wunsch nach einer fachspezifischen Messlatte: „UTQA umfasst daher 50 herausfordernde Single-Choice-Aufgaben aus der Grundlagenvorlesung Thermodynamik – zwei Drittel textbasiert, ein Drittel mit Diagrammen und Skizzen, wie sie für didaktische Übungen typisch sind“, erklärt Hertel. Ziel sei es, nicht nur Faktenwissen und Definitionen abzufragen, sondern auch die Fähigkeit der Sprachmodelle zum zielgerichteten Verknüpfen verschiedener Randbedingungen sowie das Verständnis komplexer Prozessabfolgen zu prüfen.

    Ergebnisse: solide – aber (noch) nicht zuverlässig genug

    Im Test der leistungsfähigsten Modelle des Jahres 2025 zeigt sich nach Hertels Worten ein klares Bild: Kein Modell erreichte mit UTQA die von der Forschungsgruppe für unbeaufsichtigte Assistenz als KI-Tutor vorausgesetzte Erfolgsquote von 95 Prozent. Selbst das in vielen Benchmarks führende GPT-o3-Modell kam nur auf 82 Prozent Gesamtgenauigkeit.

    „Auffällig waren zwei Schwachstellen: Erstens hatten die Modelle durchweg Schwierigkeiten mit sogenannten irreversiblen Prozessen, bei denen die Geschwindigkeit der Zustandsänderung den Ausgang beeinflusst. Zweitens traten deutliche Defizite bei Aufgaben auf, die eine Bildinterpretation erforderten“, so der Wissenschaftler.

    Dass dies nicht überraschend ist, zeigt ein historischer Rückblick: Bereits vor etwa 100 Jahren bezeichnete der französische Physiker Pierre Duhem das Phänomen der Reversibilität als eines der schwierigsten Phänomene der Thermodynamik. Dass LLMs Probleme bei der Interpretation von Diagrammen haben, sei ebenfalls nicht verwunderlich, da die Wahrnehmung und Verarbeitung visueller Inhalte zu den herausragenden kognitiven Stärken der Menschen zählen.

    Zum unbeaufsichtigten Einsatz reicht es noch nicht

    „Für die Praxis bedeutet das: Begleitet oder gesteuert können LLMs heute schon sehr nützlich in der Lehre sein – zu unbeaufsichtigten Tutoren reicht es allerdings noch nicht“, so Hertel. „Gleichzeitig haben wir in den letzten zwei Jahren enorme Fortschritte beobachtet. Wir sind daher zuversichtlich, dass – sofern die Entwicklung nicht plötzlich zum Erliegen kommt – die für Lehrassistenz in unserer Fachdisziplin nötige Fachkompetenz schon bald erreicht werden kann.“

    Was Tobias Hertel besonders freut: An dem Forschungsprojekt waren zwei Lehramtsstudentinnen maßgeblich beteiligt, die ihre spezielle didaktische Perspektive eingebracht haben. Luca-Sophie Bien erstellte eine erste deutsche Fassung vieler Aufgaben; Anna Geißler übersetzte und erweiterte die Sammlung für die internationale Nutzung.

    Warum Thermodynamik

    Die Thermodynamik eignet sich nach Hertel Ansicht ideal, um Verständnis und Denkfähigkeit der Modelle zu prüfen: „Sie ist fundamental für unser Naturverständis, besitzt kompakte Grundgesetze, verlangt in der Anwendung aber eine präzise Unterscheidung zwischen Zustands- und Prozessgrößen, Wärme oder Arbeit sowie reversiblen oder irreversiblen Vorgängen. Genau hier trennt sich Argumentationsfähigkeit von bloßem Erinnern“, so der Physikochemiker.

    Als nächsten Schritt plant das Team nun die Erweiterungen des Tools in Richtung realer Gase, Gemische, Phasendiagramme und Standardzyklen. So sollen weitere, für die Lehre zentrale Konzepte abgedeckt werden. „Je besser Modelle multimodale Bindung, also die Kombination von Text und Bild, sowie irreversible Regime beherrschen, desto näher rücken verlässliche, fachsensible KI-Tutorien“, sagt Hertel.


    Contact for scientific information:

    Prof. Dr. Tobias Hertel, Institut für Physikalische und Theoretische Chemie, E-Mail: tobias.hertel@uni-wuerzburg.de


    Original publication:

    From Canonical to Complex: Benchmarking LLM Capabilities in Undergraduate Thermodynamics, Anna Geißler, Luca-Sophie Bien, Friedrich Schöppler,and Tobias Hertel, als Prepint hier veröffentlicht: https://arxiv.org/abs/2508.21452
    Der Datensatz ist hier zu finden: UTQA (herteltm/UTQA) auf Hugging Face.


    Images

    Criteria of this press release:
    Journalists, Scientists and scholars
    Chemistry, Information technology, Physics / astronomy
    transregional, national
    Research results
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).