Forschende der Universität Passau haben menschliche Prüferinnen gegen ChatGPT von OpenAI antreten lassen – und waren zum Teil selbst überrascht von den Ergebnissen. Die Studie ist in dem renommierten Nature-Journal Scientific Reports erschienen.
Wie wirkt sich hohes Bevölkerungswachstum auf das Bruttoinlandsprodukt aus? Solche Prüfungsfragen kennen Studierende der Wirtschaftswissenschaften nur zu gut. Als Freitextfragen verlangen sie nicht nur Fachwissen, sondern auch die Fähigkeit zu ökonomischem Denken und Argumentieren. Doch die Bewertung dieser Antworten stellt Korrekturassistentinnen und -assistenten vor eine zeitraubende Aufgabe: Jede Antwort muss individuell geprüft und beurteilt werden.
Könnte künstliche Intelligenz diese Arbeit erledigen? Dieser Frage sind Forschende der Universität Passau aus den Bereichen der Wirtschaftswissenschaften und Informatik nachgegangen. Ihre Studie ist vor kurzem in dem renommierten Nature Journal Scientific Reports erschienen. Das Sprachmodell GPT von OpenAI zeigt eine zu menschlichen Prüferinnen und Prüfern ähnliche Leistung beim Einordnen von Freitextantworten.
Die Ergebnisse im Überblick:
• Wenn das KI-Modell eine Rangfolge der Textantworten nach Korrektheit und Vollständigkeit erstellen sollte - im Sinne von: die beste, zweitbeste oder schlechteste Antwort -, erreichte GPT eine vergleichbare Leistung zu menschlichen Prüferinnen und Prüfern.
• Studierende können mit KI-generierten Texten nicht bei der KI punkten: GPT zeigte keine nennenswerte Vorliebe für KI-generierte oder längere Antworten.
• Bei der Bewertung der Textantworten nach einem Punktesystem schnitt das KI-Modell qualitativ etwas schlechter ab. Tendenziell bewertete GPT großzügiger als die Menschen, zum Teil um fast eine ganze Note.
Die Forschenden kommen zu dem Schluss: KI kann menschliche Korrektorinnen und Korrektoren noch nicht ersetzen. „Musterlösungen und Nachprüfung müssen menschliche Eingriffe bleiben“, erklärt Prof. Dr. Johann Graf Lambsdorff, Inhaber des Lehrstuhls für Volkswirtschaftstheorie an der Universität Passau, der mit Deborah Voß und Stephan Geschwind für das experimentelle Design der Studie verantwortlich war. Der Informatiker Abdullah Al Zubaer programmierte die technische Umsetzung und Auswertung unter der Leitung von Prof. Dr. Michael Granitzer (Data Science). Die Forschenden plädieren dafür, Prüfungsaufgaben weiterhin eng von Menschen begleiten zu lassen. Als kritische Zweitprüferin sei KI aber durchaus geeignet.
Neue Methode zum Vergleich von KI und menschlicher Leistung
Studien zum Abschneiden von KI als Prüfling gibt es bereits einige. Doch Studien zu KI als Prüfer sind selten und die wenigen verwenden die menschliche Bewertung als wahrheitsgemäße Grundlage. Das Passauer Team geht einen Schritt weiter: Es untersucht, ob KI-Leistungen mit denen menschlicher Prüferinnen und Prüfer mithalten können – ohne die Annahme, dass der Mensch immer richtig liegt.
Für das Experiment verwendeten die Forschenden Freitextantworten von Studierenden eines Makroökonomie-Kurses auf sechs Fragen. Pro Frage wählte das Team 50 Antworten aus. Die insgesamt 300 Antworten ließ es von geschulten Korrekturassistentinnen bewerten. Parallel dazu erhielt GPT dieselbe Bewertungsaufgabe.
Da es bei offenen Fragen keine eindeutig „richtige“ Antwort gibt, ist unklar, ob ein Fehler bei der KI oder beim Menschen liegt. Um trotzdem vergleichen zu können, bediente sich das Forschungsteam eines Tricks: Es nutzte die Übereinstimmung zwischen den Bewertungen als Maß für die Nähe zu einer vermuteten Wahrheit. Je höher die Übereinstimmung, desto näher dran.
Ausgangspunkt war die Übereinstimmung zwischen den menschlichen Prüferinnen. Jeweils eine Prüferin wurde daraufhin von GPT ersetzt. Ergab sich daraus eine höhere Übereinstimmung, galt das als Hinweis auf eine KI-Leistung, die besser war als diejenige der menschlichen Prüferinnen. Tatsächlich konnte GPT bei einzelnen Fragen den Wert leicht erhöhen. „Wir waren zum Teil selbst überrascht, wie gut die KI bei manchen Bewertungen abschnitt“, sagt Deborah Voß. Abdullah Al Zubaer ergänzt: „In unseren Tests blieb die Qualität von GPT-4 auch bei unpräzisen oder fehlerhaften Instruktionen weitgehend stabil.“ Das zeigt dem Team zufolge, dass KI robust und vielseitig einsetzbar ist, auch wenn sie bei Punktbewertungen noch leicht schwächere Leistungen aufweist.
Studie im Rahmen des interdisziplinären Forschungsprojekts DeepWrite
Die Studie entstand im Rahmen des vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) geförderten Projekts DeepWrite. Darin untersuchen Wissenschaftlerinnen und Wissenschaftler der Universität Passau aus den Bereichen Recht, Wirtschaft, Informatik und Pädagogik, wie sich künstliche Intelligenz sinnvoll in der Hochschullehre einsetzen lässt. Unter anderem hat das Team das KI-Tool ArgueNiser entwickelt, mit dessen Hilfe Studierende ihre Fähigkeiten im Argumentieren trainieren können, um auf eingangs erwähnte Freitextfragen besser antworten zu können. Die Anwendung wird bereits in der Lehre an der Universität Passau verwendet.
Die Gesamtleitung des Projekts hat Prof. Dr. Urs Kramer vom Passauer Institut für Rechtsdidaktik inne. Prof. Dr. Graf Lambsdorff leitet den Fachbereich Wirtschaftswissenschaften, Prof. Dr. Granitzer den Fachbereich Data Science. Deborah Voß, Stephan Geschwind und Abdullah Al Zubaer gehören zum interdisziplinären Forschungsteam. Voß und Geschwind promovieren am Lehrstuhl für Volkswirtschaftstheorie, Zubaer am Lehrstuhl für Data Science.
Prof. Dr. Johann Graf Lambsdorff
Lehrstuhl für Volkswirtschaftslehre mit Schwerpunkt Wirtschaftstheorie
Innstraße 27, 94032 Passau
Mail: Johann.GrafLambsdorff@uni-passau.de
Zubaer, A.A. et al. GPT-4 shows comparable performance to human examiners in ranking open-text answers. Sci Rep 15, 35045 (2025). https://www.nature.com/articles/s41598-025-21572-8
https://www.uni-passau.de/deepwrite Projekt-Webseite von DeepWrite
https://www.digital.uni-passau.de/beitraege/2025/projekt-deepwrite Mit KI Argumentieren und Schreiben trainieren – Einblicke in das Projekt DeepWrite
https://www.uni-passau.de/deepwrite/argueniser KI-Tool econArgueNiser
Prof. Dr. Johann Graf Lambsdorff und Mitarbeiterin Deborah Voß
Quelle: Universität Passau
Copyright: Universität Passau
Merkmale dieser Pressemitteilung:
Journalisten, Lehrer/Schüler, Studierende, Wirtschaftsvertreter, Wissenschaftler, jedermann
Informationstechnik, Wirtschaft
überregional
Forschungsergebnisse, Forschungsprojekte
Deutsch

Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).