idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
19.05.2025 15:55

Perfekter Split

Blandina Mangelkramer Presse und Kommunikation
Friedrich-Alexander-Universität Erlangen-Nürnberg

    Bioinformatiker der FAU entwickeln Werkzeug zur besseren Evaluation von KI-Modellen

    Mit einem neuen Tool kann die Leistungsfähigkeit von KI-Modellen besser bewertet werden. Es wurde von Bioinformatikern der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) und des Helmholtz Instituts für Pharmazeutische Forschung Saarland (HIPS) entwickelt. „DataSAIL“ sortiert Trainings- und Testdaten automatisch so, dass sie sich weitestmöglich voneinander unterscheiden – so kann geprüft werden, ob KI-Modelle auch mit unterschiedlichen Daten zuverlässig arbeiten. Ihren Ansatz haben die Forschenden im renommierten Wissenschaftsmagazin „Nature Communications“ vorgestellt.

    Modelle des Maschinellen Lernens werden mit riesigen Datenmengen trainiert und müssen vor dem Praxiseinsatz getestet werden. Dafür werden die Daten zunächst in einen größeren Trainingssatz und einen kleineren Testsatz aufgeteilt – mit ersterem lernt das Modell, mit zweiterem wird anschließend seine Zuverlässigkeit geprüft. „Nur wenn die Daten so aufgeteilt werden, dass sich die Testdaten von den Trainigsdaten stark unterscheiden, lässt sich herausfinden, ob das Modell später in der Praxis auch mit neuartigen Daten – so genannten Out-of-Distribution-Daten – umgehen kann“, erklärt Prof. Dr. David Blumenthal, Bioinformatiker am Department Artificial Intelligence in Biomedical Engineering (AIBE) der FAU.

    KI-Modelle werden häufig überschätzt

    Herkömmliche Algorithmen sind zu diesem optimierten Datensplitting meist nicht fähig, weshalb die Performance von KI-Modellen oft überschätzt wird. Gemeinsam mit Forschenden des HIPS hat David Blumenthal deshalb ein Werkzeug entwickelt, das solche Fehleinschätzungen verhindert und damit neue Standards in einem wichtigen Bereich des Maschinellen Lernens setzt. Das Tool namens DataSAIL teilt Datensätze automatisch so auf, dass Trainings- und Testdaten so verschieden wie möglich sind. „DataSAIL ist ein kostenloses Tool und kann für alle Arten von Daten genutzt werden, nicht nur für biologische“, sagt Blumenthal. „Die Anwender müssen nur wenige Parameter für ihre Datensätze definieren, den Rest erledigt DataSAIL automatisch und zuverlässig.“

    Tool verarbeitet auch Interaktionsdaten

    DataSAIL ist zugleich das erste Tool, das auch zum automatisierten Splitting von Interaktionsdaten verwendet werden kann. Diese mehrdimensionalen Daten spielen beispielsweise eine Rolle in der Wirkstoffforschung. Blumenthal: „Stellen Sie sich vor, Sie wollen KI-Modelle entwickeln, die Interaktion zwischen Medikamenten und Zielproteinen vorhersagen. Dann müssen Sie beim Testen dieser Modelle evaluieren, wie gut diese einerseits für veränderte Wirkstoffmoleküle und andererseits für verschiedene Proteine funktionieren.“ Darüber hinaus ist das Werkzeug in der Lage, Klassenmerkmale zu berücksichtigen – etwa eine gleichmäßige Verteilung männlicher und weiblicher Probanden auf Trainings- und Testdaten. Damit wird verhindert, dass das Testen eines Modells für ein Geschlecht unrealistischere Ergebnisse liefert als für das andere.

    Geplant ist, das Tool in den kommenden Jahren weiterzuentwickeln, um die Laufzeit der Algorithmen zu verringern und Daten noch genauer für verschiedene Praxisszenarien aufbereiten zu können.

    * https://doi.org/10.1038/s41467-025-58606-8

    Ansprechpartner für Medien:
    Prof. Dr. David B. Blumenthal
    Professur für für Biomedical Network Science
    david.b.blumenthal@fau.de


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. David B. Blumenthal
    Professur für für Biomedical Network Science
    david.b.blumenthal@fau.de


    Originalpublikation:

    https://doi.org/10.1038/s41467-025-58606-8


    Bilder

    Merkmale dieser Pressemitteilung:
    Journalisten
    Informationstechnik
    überregional
    Buntes aus der Wissenschaft, Forschungsergebnisse
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).