Wie gut sind die aktuellen Sprachmodelle im Vergleich? Das ermittelt Prof. Dr. Christian Stump mittels schwieriger Mathe-Aufgaben, die er verschiedene Sprachmodelle lösen lässt. Mathematikerinnen und Mathematiker aus aller Welt steuern Aufgaben für sein Benchmark-Projekt bei. Die Modelle schneiden sehr unterschiedlich ab: Während das beste im aktuellen Benchmark über 40 Prozent der gestellten Aufgaben richtig lösen kann, schafft das schlechteste nur 12 Prozent. Alle Infos sind online: https://math.science-bench.ai/
Begonnen hat Stump das Projekt aus wissenschaftlicher Neugier: „Ich habe zu einigen Benchmarks Aufgaben aus meiner Forschung beigesteuert. Mich interessierte, welche wissenschaftlichen Fragen bereits durch die Modelle gelöst werden können“, erzählt er. „Aber diese Benchmarks waren selbst für die teilnehmenden Wissenschaftler*innen wie eine Black Box, die Qualität der Benchmarks war nicht nachzuvollziehen.“
Selbst Promovierende bräuchten Stunden oder Tage
Kurzerhand bereitete er einen eigenen Aufruf vor, dem zahlreiche Kolleg*innen folgten. Sie reichten bereits über 200 Aufgaben aus verschiedenen Bereichen der Mathematik ein. Diese sind so gestellt, dass selbst Promovierende im jeweiligen Forschungsgebiet Stunden oder Tage zur Lösung der Aufgaben bräuchten. „Dabei handelt es sich um Übungsaufgaben, deren Lösungen wir kennen“, erklärt Christian Stump.
Die KIs bekommen natürlich nur die Aufgabe. So lässt sich abgleichen, ob sie die richtige Lösung ermitteln können oder nicht. „Unser Benchmark basiert ausschließlich auf wissenschaftlicher Expertise, die Fragen kommen von Forschenden aus der ganzen Welt und werden nach wissenschaftlichen Kriterien in den Benchmark aufgenommen", sagt Christian Stump. Das ermöglicht eine zuverlässige Qualitätskontrolle für Sprachmodelle und zeigt die großen Unterschiede zwischen den Modellen der verschiedenen KI-Firmen.
Prof. Dr. Christian Stump
Algebraische Kombinatorik
Fakultät für Mathematik
Ruhr-Universität Bochum
E-Mail: christian.stump@ruhr-uni-bochum.de
Webseite: https://math.ruhr-uni-bochum.de/fakultaet/arbeitsbereiche/algebra/research-team-...
Merkmale dieser Pressemitteilung:
Journalisten
Mathematik
überregional
Forschungs- / Wissenstransfer
Deutsch

Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).