Qualitätscheck für die neuesten KI-Sprachmodelle

idw-News App:

11.11.2025 11:34

Qualitätscheck für die neuesten KI-Sprachmodelle

Meike Drießen Dezernat Hochschulkommunikation
Ruhr-Universität Bochum

Wie gut sind die aktuellen Sprachmodelle im Vergleich? Das ermittelt Prof. Dr. Christian Stump mittels schwieriger Mathe-Aufgaben, die er verschiedene Sprachmodelle lösen lässt. Mathematikerinnen und Mathematiker aus aller Welt steuern Aufgaben für sein Benchmark-Projekt bei. Die Modelle schneiden sehr unterschiedlich ab: Während das beste im aktuellen Benchmark über 40 Prozent der gestellten Aufgaben richtig lösen kann, schafft das schlechteste nur 12 Prozent. Alle Infos sind online: https://math.science-bench.ai/

Begonnen hat Stump das Projekt aus wissenschaftlicher Neugier: „Ich habe zu einigen Benchmarks Aufgaben aus meiner Forschung beigesteuert. Mich interessierte, welche wissenschaftlichen Fragen bereits durch die Modelle gelöst werden können“, erzählt er. „Aber diese Benchmarks waren selbst für die teilnehmenden Wissenschaftler*innen wie eine Black Box, die Qualität der Benchmarks war nicht nachzuvollziehen.“

Selbst Promovierende bräuchten Stunden oder Tage

Kurzerhand bereitete er einen eigenen Aufruf vor, dem zahlreiche Kolleg*innen folgten. Sie reichten bereits über 200 Aufgaben aus verschiedenen Bereichen der Mathematik ein. Diese sind so gestellt, dass selbst Promovierende im jeweiligen Forschungsgebiet Stunden oder Tage zur Lösung der Aufgaben bräuchten. „Dabei handelt es sich um Übungsaufgaben, deren Lösungen wir kennen“, erklärt Christian Stump.

Die KIs bekommen natürlich nur die Aufgabe. So lässt sich abgleichen, ob sie die richtige Lösung ermitteln können oder nicht. „Unser Benchmark basiert ausschließlich auf wissenschaftlicher Expertise, die Fragen kommen von Forschenden aus der ganzen Welt und werden nach wissenschaftlichen Kriterien in den Benchmark aufgenommen", sagt Christian Stump. Das ermöglicht eine zuverlässige Qualitätskontrolle für Sprachmodelle und zeigt die großen Unterschiede zwischen den Modellen der verschiedenen KI-Firmen.

Wissenschaftliche Ansprechpartner:

Prof. Dr. Christian Stump
Algebraische Kombinatorik
Fakultät für Mathematik
Ruhr-Universität Bochum
E-Mail: christian.stump@ruhr-uni-bochum.de

Webseite: https://math.ruhr-uni-bochum.de/fakultaet/arbeitsbereiche/algebra/research-team-...

Bilder

Merkmale dieser Pressemitteilung:
Journalisten
Mathematik
überregional
Forschungs- / Wissenstransfer
Deutsch

idw-News App:

Qualitätscheck für die neuesten KI-Sprachmodelle

Meike Drießen Dezernat Hochschulkommunikation Ruhr-Universität Bochum

Wissenschaftliche Ansprechpartner:

Erweiterte Suche

Umfang der Suche

Datum der Veröffentlichung

Hilfe

Die Suche / Erweiterte Suche im idw-Archiv

Verknüpfungen

Klammern

Wortgruppen

Auswahlkriterien

Meike Drießen Dezernat Hochschulkommunikation
Ruhr-Universität Bochum