idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
11/11/2025 11:34

Qualitätscheck für die neuesten KI-Sprachmodelle

Meike Drießen Dezernat Hochschulkommunikation
Ruhr-Universität Bochum

    Wie gut sind die aktuellen Sprachmodelle im Vergleich? Das ermittelt Prof. Dr. Christian Stump mittels schwieriger Mathe-Aufgaben, die er verschiedene Sprachmodelle lösen lässt. Mathematikerinnen und Mathematiker aus aller Welt steuern Aufgaben für sein Benchmark-Projekt bei. Die Modelle schneiden sehr unterschiedlich ab: Während das beste im aktuellen Benchmark über 40 Prozent der gestellten Aufgaben richtig lösen kann, schafft das schlechteste nur 12 Prozent. Alle Infos sind online: https://math.science-bench.ai/

    Begonnen hat Stump das Projekt aus wissenschaftlicher Neugier: „Ich habe zu einigen Benchmarks Aufgaben aus meiner Forschung beigesteuert. Mich interessierte, welche wissenschaftlichen Fragen bereits durch die Modelle gelöst werden können“, erzählt er. „Aber diese Benchmarks waren selbst für die teilnehmenden Wissenschaftler*innen wie eine Black Box, die Qualität der Benchmarks war nicht nachzuvollziehen.“

    Selbst Promovierende bräuchten Stunden oder Tage

    Kurzerhand bereitete er einen eigenen Aufruf vor, dem zahlreiche Kolleg*innen folgten. Sie reichten bereits über 200 Aufgaben aus verschiedenen Bereichen der Mathematik ein. Diese sind so gestellt, dass selbst Promovierende im jeweiligen Forschungsgebiet Stunden oder Tage zur Lösung der Aufgaben bräuchten. „Dabei handelt es sich um Übungsaufgaben, deren Lösungen wir kennen“, erklärt Christian Stump.

    Die KIs bekommen natürlich nur die Aufgabe. So lässt sich abgleichen, ob sie die richtige Lösung ermitteln können oder nicht. „Unser Benchmark basiert ausschließlich auf wissenschaftlicher Expertise, die Fragen kommen von Forschenden aus der ganzen Welt und werden nach wissenschaftlichen Kriterien in den Benchmark aufgenommen", sagt Christian Stump. Das ermöglicht eine zuverlässige Qualitätskontrolle für Sprachmodelle und zeigt die großen Unterschiede zwischen den Modellen der verschiedenen KI-Firmen.


    Contact for scientific information:

    Prof. Dr. Christian Stump
    Algebraische Kombinatorik
    Fakultät für Mathematik
    Ruhr-Universität Bochum
    E-Mail: christian.stump@ruhr-uni-bochum.de

    Webseite: https://math.ruhr-uni-bochum.de/fakultaet/arbeitsbereiche/algebra/research-team-...


    Images

    Criteria of this press release:
    Journalists
    Mathematics
    transregional, national
    Transfer of Science or Research
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).