idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
09.06.2026 11:32

Large Language Models lösen Übungsaufgaben auf höchstem Niveau

Meike Drießen Dezernat Hochschulkommunikation
Ruhr-Universität Bochum

    Mit 100 Fragen hat eine Gruppe von 49 internationalen Mathematikern und Mathematikerinnen aktuellen Large Language Models auf den Zahn gefühlt: Welche Übungsaufgaben auf höchstem Niveau können sie lösen? Welche noch nicht? „Die Ergebnisse haben uns beeindruckt”, berichtet Prof. Dr. Christian Stump von der Ruhr-Universität Bochum, Initiator der Aktion. „Nur zwei Aufgaben blieben ungelöst. Das zeigt, dass die mathematischen Problemlösungsfähigkeiten von Künstlichen Intelligenzen sich stark verbessert haben.“

    Die Forschenden haben sich zu einem dreitägigen Workshop am Max-Planck-Institut für Mathematik in den Naturwissenschaften in Leipzig getroffen. Dort haben sie über die ScienceBench Plattform (https://math.sciencebench.ai/) einen Benchmark mit 100 mathematischen Fragen zusammengestellt. Diese bewegten sich in ihrer Komplexität mindestens auf dem Niveau von Promotionen. Die Antworten mussten eindeutig und den Autoren bekannt, durften aber nicht explizit in Veröffentlichungen erschienen sein.

    Diese Fragen stellten sie fünf aktuellen Large Language Models (LLMs) ein einziges Mal. 41 Aufgaben blieben danach ungelöst. Die besten drei Modelle des ersten Durchgangs konfrontierten sie noch 20 weitere Male mit denselben Fragen. „Zwischen einzelnen Durchgängen eines Modells zur exakt gleichen Frage gibt es eine große Variation in den Antworten“, erklärt Christian Stump. „Bei 20 sehen wir schon deutlich mehr gelöste Fragen als bei einem Durchgang. Es blieben nur noch 16 ungelöste Fragen übrig.“

    Abschließend stellten sie die Fragen drei Mal hintereinander zwei sogenannten Heavy-Thinking-Modellen. Sie konnten weitere 14 Übungsaufgaben lösen, sodass zum Schluss nur zwei Aufgaben vollständig ungelöst blieben.

    Getestet wurden die Modelle GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7, DeepSeek-V4-Pro, Grok 4.3, GPT-5.5 Pro (Extended Thinking) und Gemini 3.1 Pro Deep Think.


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. Christian Stump
    Algebraische Kombinatorik
    Fakultät für Mathematik
    Ruhr-Universität Bochum
    E-Mail: christian.stump@ruhr-uni-bochum.de


    Originalpublikation:

    Andrei Balakin et al.: Benchmarks in Leipzig, online erschienen auf arxiv.org, 2026, DOI: 10.48550/arXiv.2606.05818, https://arxiv.org/abs/2606.05818


    Bilder

    Christian Stump hat mit Kolleginnen und Kollegen aktuellen Large Language Models mathematische Übungsaufgaben gestellt.
    Christian Stump hat mit Kolleginnen und Kollegen aktuellen Large Language Models mathematische Übu ...

    Copyright: © RUB, Marquard


    Merkmale dieser Pressemitteilung:
    Journalisten
    Mathematik
    überregional
    Forschungsergebnisse
    Deutsch


     

    Christian Stump hat mit Kolleginnen und Kollegen aktuellen Large Language Models mathematische Übungsaufgaben gestellt.


    Zum Download

    x

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).