idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
24.10.2025 11:49

Passauer Studie zeigt: KI besteht als Zweitkorrektorin bei Prüfungen

Kathrin Haimerl Abteilung Kommunikation
Universität Passau

    Forschende der Universität Passau haben menschliche Prüferinnen gegen ChatGPT von OpenAI antreten lassen – und waren zum Teil selbst überrascht von den Ergebnissen. Die Studie ist in dem renommierten Nature-Journal Scientific Reports erschienen.

    Wie wirkt sich hohes Bevölkerungswachstum auf das Bruttoinlandsprodukt aus? Solche Prüfungsfragen kennen Studierende der Wirtschaftswissenschaften nur zu gut. Als Freitextfragen verlangen sie nicht nur Fachwissen, sondern auch die Fähigkeit zu ökonomischem Denken und Argumentieren. Doch die Bewertung dieser Antworten stellt Korrekturassistentinnen und -assistenten vor eine zeitraubende Aufgabe: Jede Antwort muss individuell geprüft und beurteilt werden.

    Könnte künstliche Intelligenz diese Arbeit erledigen? Dieser Frage sind Forschende der Universität Passau aus den Bereichen der Wirtschaftswissenschaften und Informatik nachgegangen. Ihre Studie ist vor kurzem in dem renommierten Nature Journal Scientific Reports erschienen. Das Sprachmodell GPT von OpenAI zeigt eine zu menschlichen Prüferinnen und Prüfern ähnliche Leistung beim Einordnen von Freitextantworten.

    Die Ergebnisse im Überblick:
    • Wenn das KI-Modell eine Rangfolge der Textantworten nach Korrektheit und Vollständigkeit erstellen sollte - im Sinne von: die beste, zweitbeste oder schlechteste Antwort -, erreichte GPT eine vergleichbare Leistung zu menschlichen Prüferinnen und Prüfern.
    • Studierende können mit KI-generierten Texten nicht bei der KI punkten: GPT zeigte keine nennenswerte Vorliebe für KI-generierte oder längere Antworten.
    • Bei der Bewertung der Textantworten nach einem Punktesystem schnitt das KI-Modell qualitativ etwas schlechter ab. Tendenziell bewertete GPT großzügiger als die Menschen, zum Teil um fast eine ganze Note.

    Die Forschenden kommen zu dem Schluss: KI kann menschliche Korrektorinnen und Korrektoren noch nicht ersetzen. „Musterlösungen und Nachprüfung müssen menschliche Eingriffe bleiben“, erklärt Prof. Dr. Johann Graf Lambsdorff, Inhaber des Lehrstuhls für Volkswirtschaftstheorie an der Universität Passau, der mit Deborah Voß und Stephan Geschwind für das experimentelle Design der Studie verantwortlich war. Der Informatiker Abdullah Al Zubaer programmierte die technische Umsetzung und Auswertung unter der Leitung von Prof. Dr. Michael Granitzer (Data Science). Die Forschenden plädieren dafür, Prüfungsaufgaben weiterhin eng von Menschen begleiten zu lassen. Als kritische Zweitprüferin sei KI aber durchaus geeignet.

    Neue Methode zum Vergleich von KI und menschlicher Leistung

    Studien zum Abschneiden von KI als Prüfling gibt es bereits einige. Doch Studien zu KI als Prüfer sind selten und die wenigen verwenden die menschliche Bewertung als wahrheitsgemäße Grundlage. Das Passauer Team geht einen Schritt weiter: Es untersucht, ob KI-Leistungen mit denen menschlicher Prüferinnen und Prüfer mithalten können – ohne die Annahme, dass der Mensch immer richtig liegt.

    Für das Experiment verwendeten die Forschenden Freitextantworten von Studierenden eines Makroökonomie-Kurses auf sechs Fragen. Pro Frage wählte das Team 50 Antworten aus. Die insgesamt 300 Antworten ließ es von geschulten Korrekturassistentinnen bewerten. Parallel dazu erhielt GPT dieselbe Bewertungsaufgabe.

    Da es bei offenen Fragen keine eindeutig „richtige“ Antwort gibt, ist unklar, ob ein Fehler bei der KI oder beim Menschen liegt. Um trotzdem vergleichen zu können, bediente sich das Forschungsteam eines Tricks: Es nutzte die Übereinstimmung zwischen den Bewertungen als Maß für die Nähe zu einer vermuteten Wahrheit. Je höher die Übereinstimmung, desto näher dran.

    Ausgangspunkt war die Übereinstimmung zwischen den menschlichen Prüferinnen. Jeweils eine Prüferin wurde daraufhin von GPT ersetzt. Ergab sich daraus eine höhere Übereinstimmung, galt das als Hinweis auf eine KI-Leistung, die besser war als diejenige der menschlichen Prüferinnen. Tatsächlich konnte GPT bei einzelnen Fragen den Wert leicht erhöhen. „Wir waren zum Teil selbst überrascht, wie gut die KI bei manchen Bewertungen abschnitt“, sagt Deborah Voß. Abdullah Al Zubaer ergänzt: „In unseren Tests blieb die Qualität von GPT-4 auch bei unpräzisen oder fehlerhaften Instruktionen weitgehend stabil.“ Das zeigt dem Team zufolge, dass KI robust und vielseitig einsetzbar ist, auch wenn sie bei Punktbewertungen noch leicht schwächere Leistungen aufweist.

    Studie im Rahmen des interdisziplinären Forschungsprojekts DeepWrite

    Die Studie entstand im Rahmen des vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) geförderten Projekts DeepWrite. Darin untersuchen Wissenschaftlerinnen und Wissenschaftler der Universität Passau aus den Bereichen Recht, Wirtschaft, Informatik und Pädagogik, wie sich künstliche Intelligenz sinnvoll in der Hochschullehre einsetzen lässt. Unter anderem hat das Team das KI-Tool ArgueNiser entwickelt, mit dessen Hilfe Studierende ihre Fähigkeiten im Argumentieren trainieren können, um auf eingangs erwähnte Freitextfragen besser antworten zu können. Die Anwendung wird bereits in der Lehre an der Universität Passau verwendet.

    Die Gesamtleitung des Projekts hat Prof. Dr. Urs Kramer vom Passauer Institut für Rechtsdidaktik inne. Prof. Dr. Graf Lambsdorff leitet den Fachbereich Wirtschaftswissenschaften, Prof. Dr. Granitzer den Fachbereich Data Science. Deborah Voß, Stephan Geschwind und Abdullah Al Zubaer gehören zum interdisziplinären Forschungsteam. Voß und Geschwind promovieren am Lehrstuhl für Volkswirtschaftstheorie, Zubaer am Lehrstuhl für Data Science.


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. Johann Graf Lambsdorff
    Lehrstuhl für Volkswirtschaftslehre mit Schwerpunkt Wirtschaftstheorie
    Innstraße 27, 94032 Passau
    Mail: Johann.GrafLambsdorff@uni-passau.de


    Originalpublikation:

    Zubaer, A.A. et al. GPT-4 shows comparable performance to human examiners in ranking open-text answers. Sci Rep 15, 35045 (2025). https://www.nature.com/articles/s41598-025-21572-8


    Weitere Informationen:

    https://www.uni-passau.de/deepwrite Projekt-Webseite von DeepWrite
    https://www.digital.uni-passau.de/beitraege/2025/projekt-deepwrite Mit KI Argumentieren und Schreiben trainieren – Einblicke in das Projekt DeepWrite
    https://www.uni-passau.de/deepwrite/argueniser KI-Tool econArgueNiser


    Bilder

    Prof. Dr. Johann Graf Lambsdorff und Mitarbeiterin Deborah Voß
    Prof. Dr. Johann Graf Lambsdorff und Mitarbeiterin Deborah Voß
    Quelle: Universität Passau
    Copyright: Universität Passau


    Merkmale dieser Pressemitteilung:
    Journalisten, Lehrer/Schüler, Studierende, Wirtschaftsvertreter, Wissenschaftler, jedermann
    Informationstechnik, Wirtschaft
    überregional
    Forschungsergebnisse, Forschungsprojekte
    Deutsch


     

    Prof. Dr. Johann Graf Lambsdorff und Mitarbeiterin Deborah Voß


    Zum Download

    x

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).