idw - Informationsdienst
Wissenschaft
Eignen sich Sprachmodelle wie ChatGPT als unabhängige Lehrassistenten in den Naturwissenschaften? Diese Frage hat ein Forschungsteam der Universität Würzburg untersucht.
Künstliche Intelligenz ist aus dem Alltag vieler Menschen nicht mehr wegzudenken. Große Sprachmodelle (LLM) wie ChatGPT, Gemini oder Copilot schreiben für sie Briefe und Hausarbeiten, geben Ausflugstipps im Urlaub oder beantworten Fragen zu allen nur erdenklichen Themen.
Auch an Universitäten ist der Einsatz künstlicher Intelligenz in vielen Bereichen längst Routine. Inwieweit große Sprachmodelle (LLMs) Studierende in den Naturwissenschaften als unbeaufsichtigte Tutoren unterstützen können: Dieser Frage ist jetzt ein Forschungsteam an der Julius-Maximilians-Universität Würzburg (JMU) nachgegangen. Seine Ergebnisse hat es als Preprint auf arXiv veröffentlicht.
Ein frei zugängliches Evaluationstool
Eine bislang vor allem in der Spektroskopie von Nanomaterialien forschende Arbeitsgruppe der Physikalischen Chemie hat dafür jetzt ein Tool entwickelt, das das Thermodynamik-Verständnis moderner LLMs prüft – insbesondere, ob deren Können über bloßes Faktenwissen hinausgeht. Das Werkzeug mit dem Namen UTQA (Undergraduate Thermodynamics Question Answering) ist frei zugänglich und soll Lehrende und Forschende dabei unterstützen, LLMs fair und fachspezifisch zu evaluieren – und Fortschritte messbar zu machen.
„Unser Wunsch ist, dass KI uns eines Tages als Partner unbeaufsichtigt in der Lehre zur Seite stehen kann – etwa in Form kompetenter Chatbots, die bei der Vor- und Nachbereitung von Vorlesungen individuell auf die Bedürfnisse jedes Studierenden eingehen. Heute sind wir ganz klar noch nicht so weit, aber der Fortschritt ist atemberaubend“, sagt Projektleiter Professor Tobias Hertel. „Mit UTQA zeigen wir, wo aktuelle Sprachmodelle bereits überzeugen und wo sie systematisch scheitern – genau das brauchen Dozentinnen und Dozenten, um den Einsatz in der Lehre verantwortungsvoll planen zu können.“
Aus der Lehre heraus entstanden
Bereits seit dem Wintersemester 2023 setzt Hertels Team LLMs in der Thermodynamik-Vorlesung mit über 150 Studierenden für wöchentliche Wissensstand-Abfragen ein. Dabei zeigten Modelle wie ChatGPT-3.5 und ChatGPT-4 ihre Stärken, aber auch deutliche Schwächen.
Daraus entstand der Wunsch nach einer fachspezifischen Messlatte: „UTQA umfasst daher 50 herausfordernde Single-Choice-Aufgaben aus der Grundlagenvorlesung Thermodynamik – zwei Drittel textbasiert, ein Drittel mit Diagrammen und Skizzen, wie sie für didaktische Übungen typisch sind“, erklärt Hertel. Ziel sei es, nicht nur Faktenwissen und Definitionen abzufragen, sondern auch die Fähigkeit der Sprachmodelle zum zielgerichteten Verknüpfen verschiedener Randbedingungen sowie das Verständnis komplexer Prozessabfolgen zu prüfen.
Ergebnisse: solide – aber (noch) nicht zuverlässig genug
Im Test der leistungsfähigsten Modelle des Jahres 2025 zeigt sich nach Hertels Worten ein klares Bild: Kein Modell erreichte mit UTQA die von der Forschungsgruppe für unbeaufsichtigte Assistenz als KI-Tutor vorausgesetzte Erfolgsquote von 95 Prozent. Selbst das in vielen Benchmarks führende GPT-o3-Modell kam nur auf 82 Prozent Gesamtgenauigkeit.
„Auffällig waren zwei Schwachstellen: Erstens hatten die Modelle durchweg Schwierigkeiten mit sogenannten irreversiblen Prozessen, bei denen die Geschwindigkeit der Zustandsänderung den Ausgang beeinflusst. Zweitens traten deutliche Defizite bei Aufgaben auf, die eine Bildinterpretation erforderten“, so der Wissenschaftler.
Dass dies nicht überraschend ist, zeigt ein historischer Rückblick: Bereits vor etwa 100 Jahren bezeichnete der französische Physiker Pierre Duhem das Phänomen der Reversibilität als eines der schwierigsten Phänomene der Thermodynamik. Dass LLMs Probleme bei der Interpretation von Diagrammen haben, sei ebenfalls nicht verwunderlich, da die Wahrnehmung und Verarbeitung visueller Inhalte zu den herausragenden kognitiven Stärken der Menschen zählen.
Zum unbeaufsichtigten Einsatz reicht es noch nicht
„Für die Praxis bedeutet das: Begleitet oder gesteuert können LLMs heute schon sehr nützlich in der Lehre sein – zu unbeaufsichtigten Tutoren reicht es allerdings noch nicht“, so Hertel. „Gleichzeitig haben wir in den letzten zwei Jahren enorme Fortschritte beobachtet. Wir sind daher zuversichtlich, dass – sofern die Entwicklung nicht plötzlich zum Erliegen kommt – die für Lehrassistenz in unserer Fachdisziplin nötige Fachkompetenz schon bald erreicht werden kann.“
Was Tobias Hertel besonders freut: An dem Forschungsprojekt waren zwei Lehramtsstudentinnen maßgeblich beteiligt, die ihre spezielle didaktische Perspektive eingebracht haben. Luca-Sophie Bien erstellte eine erste deutsche Fassung vieler Aufgaben; Anna Geißler übersetzte und erweiterte die Sammlung für die internationale Nutzung.
Warum Thermodynamik
Die Thermodynamik eignet sich nach Hertel Ansicht ideal, um Verständnis und Denkfähigkeit der Modelle zu prüfen: „Sie ist fundamental für unser Naturverständis, besitzt kompakte Grundgesetze, verlangt in der Anwendung aber eine präzise Unterscheidung zwischen Zustands- und Prozessgrößen, Wärme oder Arbeit sowie reversiblen oder irreversiblen Vorgängen. Genau hier trennt sich Argumentationsfähigkeit von bloßem Erinnern“, so der Physikochemiker.
Als nächsten Schritt plant das Team nun die Erweiterungen des Tools in Richtung realer Gase, Gemische, Phasendiagramme und Standardzyklen. So sollen weitere, für die Lehre zentrale Konzepte abgedeckt werden. „Je besser Modelle multimodale Bindung, also die Kombination von Text und Bild, sowie irreversible Regime beherrschen, desto näher rücken verlässliche, fachsensible KI-Tutorien“, sagt Hertel.
Prof. Dr. Tobias Hertel, Institut für Physikalische und Theoretische Chemie, E-Mail: tobias.hertel@uni-wuerzburg.de
From Canonical to Complex: Benchmarking LLM Capabilities in Undergraduate Thermodynamics, Anna Geißler, Luca-Sophie Bien, Friedrich Schöppler,and Tobias Hertel, als Prepint hier veröffentlicht: https://arxiv.org/abs/2508.21452
Der Datensatz ist hier zu finden: UTQA (herteltm/UTQA) auf Hugging Face.
Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler
Chemie, Informationstechnik, Physik / Astronomie
überregional
Forschungsergebnisse
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).