idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
09.01.2025 13:00

Neues KI-Modell TabPFN ermöglicht schnellere und präzisere Vorhersagen auf kleinen Tabellendatensätzen

Rimma Gerenstein Hochschul- und Wissenschaftskommunikation
Albert-Ludwigs-Universität Freiburg im Breisgau

    • Ein Team um Frank Hutter, Professor für Maschinelles Lernen an der Universität Freiburg, erleichtert und verbessert Vorhersage von Tabellendaten, vor allem bei kleinen Datensätzen mit weniger als 10.000 Datenpunkten.
    • Das neue KI-Modell TabPFN wird vor seinem Einsatz auf synthetisch erzeugten Daten trainiert und lernt dadurch, mögliche kausale Zusammenhänge zu evaluieren und für Vorhersagen zu nutzen.
    • Hutter: „Viele Fachdisziplinen können von dieser Methode profitieren und damit auch aus wenigen Daten wichtige Zusammenhänge schneller und zuverlässiger erkennen als bisher.“

    Lücken in Datensätzen füllen oder Ausreißer erkennen – das kann der Machine Learning-Algorithmus TabPFN, den ein Team um Prof. Dr. Frank Hutter von der Universität Freiburg entwickelt hat. Diese Künstliche Intelligenz (KI) nutzt Lernmethoden, die von großen Sprachmodellen inspiriert sind. TabPFN lernt kausale Zusammenhänge aus synthetischen Daten und liegt dadurch mit seinen Vorhersagen häufiger richtig als bisher standardmäßig verwendete Algorithmen. Die Ergebnisse wurden in der Fachzeitschrift Nature veröffentlicht. Beteiligt war neben der Universität Freiburg das Universitätsklinikum Freiburg, die Charité – Universitätsmedizin Berlin, das Freiburger Startup PriorLabs sowie das ELLIS Institut Tübingen.

    Datensätze, sei es zur Wirkung bestimmter Medikamente oder zu Teilchenbahnen in Beschleunigern am CERN, sind selten vollständig oder fehlerfrei. Deshalb besteht ein wichtiger Teil der wissenschaftlichen Datenanalyse daraus, Ausreißer als solche zu erkennen oder fehlende Datenpunkte durch sinnvolle Abschätzungen zu ergänzen. Bisherige Algorithmen wie XGBoost funktionieren gut bei großen Datensätzen, sind jedoch bei kleineren Datenmengen oft unzuverlässig.

    Mit dem Modell TabPFN lösen Hutter und sein Team dieses Problem, indem sie den Algorithmus vor dessen Einsatz auf künstlich erstellten Datensätzen trainieren, die realen Szenarien nachempfunden sind. Die Wissenschaftler erzeugen dazu Datentabellen, in denen die Einträge der einzelnen Tabellenspalten kausal miteinander zusammenhängen. TabPFN wurde mit 100 Millionen solcher synthetischer Datensätze trainiert. Durch dieses Training lernt das Modell, verschiedene mögliche kausale Zusammenhänge zu evaluieren und für seine Vorhersagen zu nutzen.

    Das Modell funktioniert insbesondere bei kleinen Tabellen mit weniger als 10.000 Zeilen, vielen Ausreißern oder einer großen Zahl fehlender Werte besser als andere Algorithmen. Zum Beispiel benötigt TabPFN nur 50 % der Datenmenge, um die gleiche Genauigkeit wie das bisher beste Modell zu erreichen. Zudem ist TabPFN im Umgang mit neuen Arten von Daten effizienter als bisherige Algorithmen. Statt bei jedem Datensatz einen neuen Lernprozess zu beginnen, kann das Modell auf ähnliche Datensätze angepasst werden. Dieser Vorgang ähnelt der Anpassung von Sprachmodellen mit offenen Gewichten wie das von Meta entwickelte Llama. Auch ermöglicht das Modell, aus einem Datensatz die Wahrscheinlichkeitsdichte abzuleiten und daraus wiederum neue Daten mit ähnlichen Eigenschaften zu erzeugen.

    „Mit TabPFN verlässlich und schnell Vorhersagen aus Tabellendaten berechnen zu können, ist für viele Fachdisziplinen ein Gewinn – von der Biomedizin über die Wirtschaftswissenschaften bis hin zur Physik“, sagt Hutter. „TabPFN liefert schneller bessere Ergebnisse und ist durch seinen geringen Bedarf an Ressourcen und Daten ideal für kleine Unternehmen und Teams geeignet.“ Den Code und Hinweise dazu, wie sie ihn nutzen können, finden Interessierte hier. In einem nächsten Schritt werden die Forschenden die KI weiterentwickeln, um auch bei größeren Datensätzen bestmögliche Vorhersagen machen zu können.

    • Originalpublikation: N. Hollmann, S. Müller, L. Purucker, A. Krishnakumar, M. Körfer, Shi Bin Hoo, R. T. Schirrmeister, F. Hutter: Accurate Predictions on Small Data with a Tabular Foundation Model. Nature, 2025. URL: https://www.nature.com/articles/s41586-024-08328-6. DOI: 10.1038/s41586-024-08328-6

    • Noah Hollmann ist wissenschaftlicher Mitarbeiter an der Professur für Maschinelles Lernen an der Universität Freiburg, Student der Charité – Berliner Universitätsmedizin und am Berlin Institute of Health at Charité (BIH), sowie Gründer von PriorLabs. Samuel Müller und Lennart Purucker promovieren bei Prof. Dr. Frank Hutter, Arjun Krishnakumar ist wissenschaftlicher Mitarbeiter bei Hutters Professur. Max Körfer war ebenfalls Doktorand bei Hutter, Shi Bin Hoo arbeitet als studentische Hilfskraft an der Professur für Maschinelles Lernen. Dr. Robin Tibor Schirrmeister ist Wissenschaftlicher Mitarbeiter an der Klinik für Diagnostik und Interventionelle Radiologie am Universitätsklinikum Freiburg. Prof. Dr. Frank Hutter leitet neben seiner Professur an der Universität Freiburg eine Forschungsgruppe am ELLIS Institut Tübingen und ist Gründer von PriorLabs.

    • Die Forschung wurde gefördert vom Land Baden-Württemberg und die Deutsche Forschungsgemeinschaft (DFG) durch den Hochleistungsrechner NEMO (INST 39/963-1 FUGG); durch die DFG unter der Projektnummer 417962828 sowie als Teil des Sonderforschungsbereichs SmallData, Projektnummer 499552394; und durch die Europäische Union mit dem ERC Consolidator Grant DeepLearning 2.0, Nr. 101045765.


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. Frank Hutter
    fh@cs.uni-freiburg.de


    Originalpublikation:

    https://www.nature.com/articles/s41586-024-08328-6


    Weitere Informationen:

    https://uni-freiburg.de/neues-ki-modell-tabpfn-ermoeglicht-schnellere-und-praezi...


    Bilder

    Merkmale dieser Pressemitteilung:
    Journalisten, jedermann
    Informationstechnik
    überregional
    Forschungsergebnisse
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).