Unser Körper setzt sich aus etwa 75 Milliarden einzelner Zellen zusammen. Doch welcher Funktion geht jede dieser Zellen nach und wie unterscheiden sich die Zellen eines gesunden Menschen von Personen mit einer Erkrankung? Um Rückschlüsse ziehen zu können, müssen riesige Datenmengen analysiert und interpretiert werden. Dafür wird auf Methoden des maschinellen Lernens zurückgegriffen. Forschende der Technischen Universität München (TUM) und des Helmholtz Munich haben nun Selbstüberwachtes Lernen als vielversprechenden Ansatz an über 20 Millionen Zellen getestet.
In den letzten Jahren haben Forschende große Fortschritte in der Einzelzelltechnologie erzielt. Dadurch ist es möglich, Gewebe auf Grundlage einzelner Zellen zu untersuchen und die unterschiedlichen Funktionen einzelner Zelltypen überhaupt zu bestimmen. Diese Analysen können beispielsweise genutzt werden, um durch den Vergleich mit gesunden Zellen festzustellen, wie Rauchen, Lungenkrebs oder eine Covid-Erkrankung einzelne Zellstrukturen in der Lunge verändern.
Gleichzeitig fallen durch die Analysen immer größere Mengen an Daten an. Methoden des maschinellen Lernens sollen dabei unterstützen, Daten aus existierenden Datensätzen neu zu interpretieren, aussagekräftige Informationen aus den Mustern zu erkennen und diese auf andere Bereiche zu übertragen.
Selbstüberwachtes Lernen als neuer Ansatz
Fabian Theis, Professor für die Mathematische Modellierung biologischer Systeme, und sein Team haben in einer Studie untersucht, ob sich Selbstüberwachtes Lernen besser für die Analyse von großen Datenmengen eignet als andere Methoden. Die Studie wurde vor Kurzem bei Natur Machine Intelligence veröffentlicht. Diese Form des maschinellen Lernens arbeitet mit unbeschrifteten Daten. Dabei werden im Vorhinein keine klassifizierten Beispieldaten benötigt. Das heißt, die Daten müssen zuvor nicht händisch bestimmten Gruppen zugeordnet werden. Unbeschriftete Daten liegen in großer Anzahl vor und ermöglichen eine robuste Repräsentation großer Datenmengen.
Dem Selbstüberwachten Lernen liegen zwei Methoden zugrunde. Beim sogenannten maskierten Lernen wird ein Teil der Eingabedaten unkenntlich gemacht und das Modell so trainiert, dass es die fehlenden Teile rekonstruieren kann. Die Forschenden wendeten darüber hinaus kontrastives Lernen an, bei dem das Modell lernt, ähnliche Daten zusammenzubringen und unähnliche Daten zu trennen.
Beide Methoden des Selbstüberwachten Lernens testete das Team an über 20 Millionen Einzelzellen und verglich sie mit den Ergebnissen klassischer Lernmethoden. Die Forschenden konzentrierten sich bei der Bewertung der unterschiedlichen Methoden auf Aufgaben wie die Vorhersage von Zelltypen oder die Rekonstruktion der Genexpression.
Chancen für die Entwicklung virtueller Zellen
Die Ergebnisse der Studie zeigen, dass Selbstüberwachtes Lernen insbesondere bei Transfer-Aufgaben einen Mehrwert bietet. Das heißt, bei der Anwendung auf kleinere Datensätze, bei denen Informationen aus größeren Datenbanken übertragen werden. Darüber hinaus sind die Ergebnisse bei Zero-Shot Zellvorhersagen vielversprechend, also bei Aufgaben, die vorher nicht trainiert wurden. Der Vergleich zwischen maskiertem und kontrastivem Lernen zeigt, dass sich maskiertes Lernen besser für große Einzelzell-Datensätze eignet.
Mithilfe der Daten arbeiten die Forschenden daran, sogenannte virtuelle Zellen zu entwickeln, also umfassende Computermodelle, die die Vielfalt von Zellen in verschiedenen Datensätzen abbilden. Diese Modelle sind beispielsweise vielversprechend bei der Analyse von Zellveränderungen, wie es bei Krebserkrankungen der Fall ist. Die Ergebnisse der Studie liefern wertvolle Hinweise, wie solche Modelle effizienter trainiert und weiter verbessert werden können.
Prof. Fabian Theis
Technische Universität München
Lehrstuhl für Mathematische Modellierung biologischer Systeme
theis@mytum.de
Richter, T., Bahrami, M., Xia, Y. et al. Delineating the effective use of self-supervised learning in single-cell genomics. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-024-00934-3
https://www.tum.de/aktuelles/alle-meldungen/pressemitteilungen/details/ein-schlu...
Fabian Theis, Professor für Mathematische Modellierung biologischer Systeme
Astrid Eckert / TUM
© Astrid Eckert, München (Verwendung frei für die Berichterstattung über die TUM bei Nennung des Copyrights)
Criteria of this press release:
Journalists
Information technology, Mathematics, Medicine
transregional, national
Research results, Scientific Publications
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).