idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
11.11.2025 11:34

Qualitätscheck für die neuesten KI-Sprachmodelle

Meike Drießen Dezernat Hochschulkommunikation
Ruhr-Universität Bochum

    Wie gut sind die aktuellen Sprachmodelle im Vergleich? Das ermittelt Prof. Dr. Christian Stump mittels schwieriger Mathe-Aufgaben, die er verschiedene Sprachmodelle lösen lässt. Mathematikerinnen und Mathematiker aus aller Welt steuern Aufgaben für sein Benchmark-Projekt bei. Die Modelle schneiden sehr unterschiedlich ab: Während das beste im aktuellen Benchmark über 40 Prozent der gestellten Aufgaben richtig lösen kann, schafft das schlechteste nur 12 Prozent. Alle Infos sind online: https://math.science-bench.ai/

    Begonnen hat Stump das Projekt aus wissenschaftlicher Neugier: „Ich habe zu einigen Benchmarks Aufgaben aus meiner Forschung beigesteuert. Mich interessierte, welche wissenschaftlichen Fragen bereits durch die Modelle gelöst werden können“, erzählt er. „Aber diese Benchmarks waren selbst für die teilnehmenden Wissenschaftler*innen wie eine Black Box, die Qualität der Benchmarks war nicht nachzuvollziehen.“

    Selbst Promovierende bräuchten Stunden oder Tage

    Kurzerhand bereitete er einen eigenen Aufruf vor, dem zahlreiche Kolleg*innen folgten. Sie reichten bereits über 200 Aufgaben aus verschiedenen Bereichen der Mathematik ein. Diese sind so gestellt, dass selbst Promovierende im jeweiligen Forschungsgebiet Stunden oder Tage zur Lösung der Aufgaben bräuchten. „Dabei handelt es sich um Übungsaufgaben, deren Lösungen wir kennen“, erklärt Christian Stump.

    Die KIs bekommen natürlich nur die Aufgabe. So lässt sich abgleichen, ob sie die richtige Lösung ermitteln können oder nicht. „Unser Benchmark basiert ausschließlich auf wissenschaftlicher Expertise, die Fragen kommen von Forschenden aus der ganzen Welt und werden nach wissenschaftlichen Kriterien in den Benchmark aufgenommen", sagt Christian Stump. Das ermöglicht eine zuverlässige Qualitätskontrolle für Sprachmodelle und zeigt die großen Unterschiede zwischen den Modellen der verschiedenen KI-Firmen.


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. Christian Stump
    Algebraische Kombinatorik
    Fakultät für Mathematik
    Ruhr-Universität Bochum
    E-Mail: christian.stump@ruhr-uni-bochum.de

    Webseite: https://math.ruhr-uni-bochum.de/fakultaet/arbeitsbereiche/algebra/research-team-...


    Bilder

    Merkmale dieser Pressemitteilung:
    Journalisten
    Mathematik
    überregional
    Forschungs- / Wissenstransfer
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).