Neues KI-Modell verschiebt die Grenzen in Bezug auf Universalität, Effizienz, Genauigkeit und Skalierbarkeit
Ein internationales Forscherteam des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin, der Universität Luxemburg und von Google DeepMind hat ein neues Machine-Learning-Foundationmodell entwickelt, das in der Lage ist, Moleküle aller Art mit quantenmechanischer Genauigkeit zu simulieren. Die Ergebnisse wurden nun im renommierten Journal of the American Chemical Society (JACS) veröffentlicht. Die neue Methode, SO3LR genannt, kombiniert neueste Entwicklungen im Design neuronaler Netze mit physikalischen Gesetzen und wurde mit einem speziell kuratierten Datensatz von vier Millionen unterschiedlichen Molekülstrukturen trainiert. Damit ist dieses Modell nicht nur in der Lage, komplexe Biomoleküle, wie zum Beispiel Proteine, Zuckermoleküle oder Zellmembranen, zu modellieren, sondern kann auch unterschiedlichste Moleküle simulieren, ohne dass es neu trainiert werden muss. Dieses universell einsetzbare Modell ebnet damit den Weg für eine zukünftig beschleunigte Medikamentenentwicklung und ein tieferes Verständnis der Molekularbiologie.
Molekulardynamik-(MD)-Simulationen ermöglichen es, das Verhalten von Molekülen zu verstehen und vorherzusagen. Sie erlauben die Beschreibung molekularer Wechselwirkungen über die Zeit und liefern Einblicke in deren Struktur, Dynamik und Funktion. Die exakte Simulation der Interaktion von großen Biomolekülen könnte es zum Beispiel ermöglichen, neue Medikamente zu entwickeln, ohne vorher zeit-, material- und kostenintensive Experimente durchführen zu müssen.
Die Verbesserung der Genauigkeit und Anwendbarkeit dieser Simulationen hat eine lange Tradition in der computergestützten Physik und Chemie. Seit Jahrzehnten stehen Forschende dabei vor einem fundamentalen Zielkonflikt: Die Methoden waren entweder schnell, aber nur näherungsweise und nicht auf verschiedene Moleküle übertragbar, oder extrem genau, jedoch rechnerisch außerordentlich aufwändig und teuer. Dieser Zielkonflikt beschränkte die hochpräzisen Simulationen bisher auf kleine Systeme mit wenigen Hundert Atomen. Große und komplexe Biomoleküle oder Proteine, können jedoch viele zehntausend Atome enthalten, was die Möglichkeiten einschränkte, grundlegende dynamische Prozesse wie Proteinfaltung oder Zellorganisation exakt zu modellieren und zu verstehen.
In den vergangenen Jahren haben KI-basierte Modelle begonnen, diese Lücke zwischen näherungsweisen (klassischen) Methoden und hochgenauen (quantenmechanischen) Methoden zu überbrücken. Trotz großer Fortschritte blieben zwei zentrale Herausforderungen: die Skalierbarkeit dieser Ansätze auf Biomoleküle realistischer Größe und die universelle Modellierung in einem einzigen Modell. Das größte Hindernis für die Anwendung bisheriger Modelle für große und komplexe Moleküle war bislang die fehlende Berücksichtigung quantenmechanischer Effekte über große Abstände hinweg. Einfach gesagt: Atome in einem Molekül wechselwirken nicht nur mit ihren unmittelbaren Nachbarn, sondern auch mit weit entfernten Atomen. Je größer das Molekül, desto wichtiger werden gerade diese Fernwirkungen. Ohne diese langreichweitigen Wechselwirkungen wäre das Leben, wie wir es kennen, nicht möglich, da Biomoleküle nicht funktionsfähig wären.
Das neue Modell SO3LR überwindet diese Herausforderungen und verschiebt die Grenzen in Bezug auf Effizienz, Genauigkeit, Skalierbarkeit und Universalität bei der Simulation organischer Moleküle. Den Forschenden gelang dies, indem sie für das Design von SO3LR einen hybriden Ansatz verfolgten: Die komplexe Aufgabe der Berechnung quantenmechanischer Wechselwirkungen zwischen Atomen wird dazu in zwei komplementäre Komponenten aufgeteilt. Ein schnelles und hochgenaues Machine-Learning-Modell lernt die komplexen quantenmechanischen Vielteilchen-Wechselwirkungen auf kurzen und mittleren Distanzen. Parallel beschreiben universelle, physikalisch fundierte Gleichungen exakt die paarweisen Interaktionen über große Distanzen.
„Verlässliche Simulationen im biomolekularen Maßstab hängen von diesen langreichweitigen Interaktionen ab, daher sind diese im Design von SO3LR verankert“, erklärt Adil Kabylda von der Universität Luxemburg, der das Projekt leitete. „So kann unser Modell seine starke Lernkapazität darauf konzentrieren, die komplexen Quanteneffekte zu erfassen, die traditionellen Modellen bisher entgehen“, ergänzt Dr. Thorben Frank, Postdoc am BIFOLD-Institut. Die zweite Herausforderung, die es zu lösen galt, war die universale Anwendbarkeit eines Modells auf unterschiedlichste Moleküle. Um das zu erreichen, erstellte das Team einen umfangreichen und vielfältigen Datensatz aus über 4 Millionen sorgfältig kuratierten Molekülstrukturen, mit dem SO3LR lernte, die große Vielfalt an Molekülen in der Natur akkurat zu beschreiben. Damit kann dieses Modell erstmals verschiedenste große Moleküle simulieren – ohne vorab neu trainiert werden zu müssen.
Der Durchbruch des Modells liegt in seiner Universalität
Um die Leistungsfähigkeit von SO3LR zu demonstrieren, führte das Forschungsteam eine Reihe anspruchsvoller Simulationen für alle vier Haupttypen von Biomolekülen durch, die in der Natur vorkommen. So simulierten sie etwa große Proteine in einer expliziten Wasserumgebung, darunter das pflanzliche Crambin-Protein und ein komplexes Glykoprotein. Darüber hinaus untersuchten sie eine Lipid-POPC-Doppelschicht, ein Modellsystem für menschliche Zellmembranen.
„Der entscheidende Durchbruch von SO3LR liegt in der Universalität. Statt für jedes neue Molekül einen langwierigen Prozess aus Datengenerierung und anschließendem Training durchlaufen zu müssen, stellen wir ein einziges, direkt einsetzbares Modell bereit. Dies erspart Forschenden die zeit- und rechenintensiven Vorbereitungsschritte und erlaubt das direkte Testen von Hypothesen mit quantenmechanischer Genauigkeit“, sagt Prof. Klaus-Robert Müller, BIFOLD Co-Direktor. „SO3LR stellt einen entscheidenden Schritt in diese Richtung dar. Durch die Verbindung von Machine Learning mit physikalischen Prinzipien öffnen wir die Tür zur Modellierung realistischer biologischer Prozesse mit quantengenauer Präzision – mit tiefgreifenden Auswirkungen auf das molekulare Verständnis von Gesundheit und Krankheit sowie auf die Entwicklung der nächsten Generation von Medikamenten“, fasst Prof. Alexandre Tkatchenko von der Universität Luxemburg die Bedeutung der Arbeit zusammen.
In einer Zeit, in der KI-Modelle zunehmend in den Händen privater Unternehmen liegen, hat sich dieses Team aus internationalen Wissenschaftlern entschlossen, das Modell und seine zugrundeliegenden Datensätze der wissenschaftlichen Gemeinschaft offen zugänglich zu machen, um weitere Fortschritte auf diesem Gebiet zu beschleunigen.
Prof. Dr. Klaus-Robert Müller
TU Berlin/BIFOLD
E-Mail: klaus-robert.mueller@tu-berlin.de
https://doi.org/10.1021/jacs.5c09558
Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler
Biologie, Chemie, Informationstechnik, Medizin
überregional
Forschungs- / Wissenstransfer, Forschungsergebnisse
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).