idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
01/23/2025 12:48

Künstliche Intelligenz in der Biomedizin: Ein Schlüssel zur Analyse von Millionen Einzelzellen

Julia Rinner Corporate Communications Center
Technische Universität München

    Unser Körper setzt sich aus etwa 75 Milliarden einzelner Zellen zusammen. Doch welcher Funktion geht jede dieser Zellen nach und wie unterscheiden sich die Zellen eines gesunden Menschen von Personen mit einer Erkrankung? Um Rückschlüsse ziehen zu können, müssen riesige Datenmengen analysiert und interpretiert werden. Dafür wird auf Methoden des maschinellen Lernens zurückgegriffen. Forschende der Technischen Universität München (TUM) und des Helmholtz Munich haben nun Selbstüberwachtes Lernen als vielversprechenden Ansatz an über 20 Millionen Zellen getestet.

    In den letzten Jahren haben Forschende große Fortschritte in der Einzelzelltechnologie erzielt. Dadurch ist es möglich, Gewebe auf Grundlage einzelner Zellen zu untersuchen und die unterschiedlichen Funktionen einzelner Zelltypen überhaupt zu bestimmen. Diese Analysen können beispielsweise genutzt werden, um durch den Vergleich mit gesunden Zellen festzustellen, wie Rauchen, Lungenkrebs oder eine Covid-Erkrankung einzelne Zellstrukturen in der Lunge verändern.

    Gleichzeitig fallen durch die Analysen immer größere Mengen an Daten an. Methoden des maschinellen Lernens sollen dabei unterstützen, Daten aus existierenden Datensätzen neu zu interpretieren, aussagekräftige Informationen aus den Mustern zu erkennen und diese auf andere Bereiche zu übertragen.

    Selbstüberwachtes Lernen als neuer Ansatz

    Fabian Theis, Professor für die Mathematische Modellierung biologischer Systeme, und sein Team haben in einer Studie untersucht, ob sich Selbstüberwachtes Lernen besser für die Analyse von großen Datenmengen eignet als andere Methoden. Die Studie wurde vor Kurzem bei Natur Machine Intelligence veröffentlicht. Diese Form des maschinellen Lernens arbeitet mit unbeschrifteten Daten. Dabei werden im Vorhinein keine klassifizierten Beispieldaten benötigt. Das heißt, die Daten müssen zuvor nicht händisch bestimmten Gruppen zugeordnet werden. Unbeschriftete Daten liegen in großer Anzahl vor und ermöglichen eine robuste Repräsentation großer Datenmengen.

    Dem Selbstüberwachten Lernen liegen zwei Methoden zugrunde. Beim sogenannten maskierten Lernen wird ein Teil der Eingabedaten unkenntlich gemacht und das Modell so trainiert, dass es die fehlenden Teile rekonstruieren kann. Die Forschenden wendeten darüber hinaus kontrastives Lernen an, bei dem das Modell lernt, ähnliche Daten zusammenzubringen und unähnliche Daten zu trennen.

    Beide Methoden des Selbstüberwachten Lernens testete das Team an über 20 Millionen Einzelzellen und verglich sie mit den Ergebnissen klassischer Lernmethoden. Die Forschenden konzentrierten sich bei der Bewertung der unterschiedlichen Methoden auf Aufgaben wie die Vorhersage von Zelltypen oder die Rekonstruktion der Genexpression.

    Chancen für die Entwicklung virtueller Zellen

    Die Ergebnisse der Studie zeigen, dass Selbstüberwachtes Lernen insbesondere bei Transfer-Aufgaben einen Mehrwert bietet. Das heißt, bei der Anwendung auf kleinere Datensätze, bei denen Informationen aus größeren Datenbanken übertragen werden. Darüber hinaus sind die Ergebnisse bei Zero-Shot Zellvorhersagen vielversprechend, also bei Aufgaben, die vorher nicht trainiert wurden. Der Vergleich zwischen maskiertem und kontrastivem Lernen zeigt, dass sich maskiertes Lernen besser für große Einzelzell-Datensätze eignet.

    Mithilfe der Daten arbeiten die Forschenden daran, sogenannte virtuelle Zellen zu entwickeln, also umfassende Computermodelle, die die Vielfalt von Zellen in verschiedenen Datensätzen abbilden. Diese Modelle sind beispielsweise vielversprechend bei der Analyse von Zellveränderungen, wie es bei Krebserkrankungen der Fall ist. Die Ergebnisse der Studie liefern wertvolle Hinweise, wie solche Modelle effizienter trainiert und weiter verbessert werden können.


    Contact for scientific information:

    Prof. Fabian Theis
    Technische Universität München
    Lehrstuhl für Mathematische Modellierung biologischer Systeme
    theis@mytum.de


    Original publication:

    Richter, T., Bahrami, M., Xia, Y. et al. Delineating the effective use of self-supervised learning in single-cell genomics. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-024-00934-3


    More information:

    https://www.tum.de/aktuelles/alle-meldungen/pressemitteilungen/details/ein-schlu...


    Images

    Fabian Theis, Professor für Mathematische Modellierung biologischer Systeme
    Fabian Theis, Professor für Mathematische Modellierung biologischer Systeme
    Astrid Eckert / TUM
    © Astrid Eckert, München (Verwendung frei für die Berichterstattung über die TUM bei Nennung des Copyrights)


    Criteria of this press release:
    Journalists
    Information technology, Mathematics, Medicine
    transregional, national
    Research results, Scientific Publications
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).