idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
05/19/2025 15:55

Perfekter Split

Blandina Mangelkramer Presse und Kommunikation
Friedrich-Alexander-Universität Erlangen-Nürnberg

    Bioinformatiker der FAU entwickeln Werkzeug zur besseren Evaluation von KI-Modellen

    Mit einem neuen Tool kann die Leistungsfähigkeit von KI-Modellen besser bewertet werden. Es wurde von Bioinformatikern der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) und des Helmholtz Instituts für Pharmazeutische Forschung Saarland (HIPS) entwickelt. „DataSAIL“ sortiert Trainings- und Testdaten automatisch so, dass sie sich weitestmöglich voneinander unterscheiden – so kann geprüft werden, ob KI-Modelle auch mit unterschiedlichen Daten zuverlässig arbeiten. Ihren Ansatz haben die Forschenden im renommierten Wissenschaftsmagazin „Nature Communications“ vorgestellt.

    Modelle des Maschinellen Lernens werden mit riesigen Datenmengen trainiert und müssen vor dem Praxiseinsatz getestet werden. Dafür werden die Daten zunächst in einen größeren Trainingssatz und einen kleineren Testsatz aufgeteilt – mit ersterem lernt das Modell, mit zweiterem wird anschließend seine Zuverlässigkeit geprüft. „Nur wenn die Daten so aufgeteilt werden, dass sich die Testdaten von den Trainigsdaten stark unterscheiden, lässt sich herausfinden, ob das Modell später in der Praxis auch mit neuartigen Daten – so genannten Out-of-Distribution-Daten – umgehen kann“, erklärt Prof. Dr. David Blumenthal, Bioinformatiker am Department Artificial Intelligence in Biomedical Engineering (AIBE) der FAU.

    KI-Modelle werden häufig überschätzt

    Herkömmliche Algorithmen sind zu diesem optimierten Datensplitting meist nicht fähig, weshalb die Performance von KI-Modellen oft überschätzt wird. Gemeinsam mit Forschenden des HIPS hat David Blumenthal deshalb ein Werkzeug entwickelt, das solche Fehleinschätzungen verhindert und damit neue Standards in einem wichtigen Bereich des Maschinellen Lernens setzt. Das Tool namens DataSAIL teilt Datensätze automatisch so auf, dass Trainings- und Testdaten so verschieden wie möglich sind. „DataSAIL ist ein kostenloses Tool und kann für alle Arten von Daten genutzt werden, nicht nur für biologische“, sagt Blumenthal. „Die Anwender müssen nur wenige Parameter für ihre Datensätze definieren, den Rest erledigt DataSAIL automatisch und zuverlässig.“

    Tool verarbeitet auch Interaktionsdaten

    DataSAIL ist zugleich das erste Tool, das auch zum automatisierten Splitting von Interaktionsdaten verwendet werden kann. Diese mehrdimensionalen Daten spielen beispielsweise eine Rolle in der Wirkstoffforschung. Blumenthal: „Stellen Sie sich vor, Sie wollen KI-Modelle entwickeln, die Interaktion zwischen Medikamenten und Zielproteinen vorhersagen. Dann müssen Sie beim Testen dieser Modelle evaluieren, wie gut diese einerseits für veränderte Wirkstoffmoleküle und andererseits für verschiedene Proteine funktionieren.“ Darüber hinaus ist das Werkzeug in der Lage, Klassenmerkmale zu berücksichtigen – etwa eine gleichmäßige Verteilung männlicher und weiblicher Probanden auf Trainings- und Testdaten. Damit wird verhindert, dass das Testen eines Modells für ein Geschlecht unrealistischere Ergebnisse liefert als für das andere.

    Geplant ist, das Tool in den kommenden Jahren weiterzuentwickeln, um die Laufzeit der Algorithmen zu verringern und Daten noch genauer für verschiedene Praxisszenarien aufbereiten zu können.

    * https://doi.org/10.1038/s41467-025-58606-8

    Ansprechpartner für Medien:
    Prof. Dr. David B. Blumenthal
    Professur für für Biomedical Network Science
    david.b.blumenthal@fau.de


    Contact for scientific information:

    Prof. Dr. David B. Blumenthal
    Professur für für Biomedical Network Science
    david.b.blumenthal@fau.de


    Original publication:

    https://doi.org/10.1038/s41467-025-58606-8


    Images

    Criteria of this press release:
    Journalists
    Information technology
    transregional, national
    Miscellaneous scientific news/publications, Research results
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).