Ein Team um Prof. Dr. Frank Glorius vom Organisch-Chemischen Institut der Universität Münster hat einen evolutionären Algorithmus entwickelt, der die Strukturen in einem Molekül identifiziert, die für die jeweilige Fragestellung besonders relevant sind, und sie nutzt, um die Eigenschaften der Moleküle für verschiedene Machine-Learning-Modelle zu encodieren. Die Methode ist auch für die maschinelle Vorhersage von quantenchemischen Eigenschaften und der Toxizität von Molekülen geeignet. Sie ist auf jeden molekularen Datensatz anwendbar und setzt kein Expertenwissen über die zugrundeliegenden Zusammenhänge voraus.
Künstliche Intelligenz und maschinelles Lernen (Machine Learning) werden nicht nur im Alltag bedeutsamer, sondern auch in der Chemie. So interessieren sich organische Chemiker dafür, wie Machine Learning helfen kann, neue Moleküle zu entdecken und zu synthetisieren, die gegen Krankheiten wirken oder auf andere Weise von Nutzen sind. Ein Team um Prof. Dr. Frank Glorius vom Organisch-Chemischen Institut der Universität Münster hat nun einen evolutionären Algorithmus entwickelt, der die optimalen molekularen Repräsentationen nach dem Vorbild der natürlichen Evolution sucht, durch Mechanismen wie Fortpflanzung, Mutation und Selektion. Er identifiziert die Strukturen in einem Molekül, die für die jeweilige Fragestellung besonders relevant sind, und nutzt sie, um Moleküle für verschiedene Machine-Learning-Modelle zu encodieren. Auf diese Weise entstehen je nach Modell und Frage passgenaue „molekulare Fingerabdrücke“, mit denen die Chemiker in ihrer Studie gute Ergebnisse bei der Vorhersage chemischer Reaktionen erzielten. Die Methode, die in der Fachzeitschrift „Chem“ veröffentlicht ist, ist auch für die Vorhersage von quantenchemischen Eigenschaften und der Toxizität von Molekülen geeignet.
Um Machine Learning einsetzen zu können, müssen Forscher die Moleküle zunächst in eine computerlesbare Form übersetzen. Da sich bereits viele Arbeitsgruppen mit diesem Problem beschäftigt haben, gibt es dafür unterschiedliche Möglichkeiten. Allerdings ist schwer vorherzusagen, welche davon für die Beantwortung einer Frage am besten geeignet ist – zum Beispiel, um zu klären, ob eine chemische Verbindung für einen Menschen schädlich ist. Der neue Algorithmus soll helfen, den jeweils optimalen molekularen Fingerabdruck zu finden. Dafür wählt der Algorithmus aus vielen zufällig generierten molekularen Fingerabdrücke nach und nach jene aus, die in der Vorhersage die besten Ergebnisse erzielen. „Nach dem Vorbild der Natur setzen wir dabei Mutationen ein, also zufällige Veränderungen einzelner Bestandteile der Fingerabdrücke, oder rekombinieren Bestandteile zweier Fingerabdrücke“, erläutert Doktorand Felix Katzenburg.
„In anderen Studien werden Moleküle häufig durch quantifizierbare Eigenschaften beschrieben, die von Menschen ausgewählt und berechnet wurden“, ergänzt Frank Glorius. „Da der von uns entwickelte Algorithmus die jeweils relevanten Molekülstrukturen automatisch identifiziert, treten hier hingegen keine systematischen Verzerrungen durch menschliche Experimentatoren auf.“ Ein Vorteil sei außerdem, dass durch die Art und Weise der Encodierung nachvollziehbar bleibe, warum ein Modell eine bestimmte Vorhersage macht. So könne man zum Beispiel Rückschlüsse darauf ziehen, welche Teile eines Moleküls die Vorhersage über den Verlauf einer Reaktion positiv oder negativ beeinflussen, um diese relevanten Strukturen dann gezielt zu verändern.
Das münstersche Team stellte fest, dass seine neue Methode nicht in allen Fällen die besten Ergebnisse erzielte. „Wenn erhebliche menschliche Expertise in die Wahl besonders relevanter molekularer Eigenschaften geflossen ist oder sehr große Datenmengen zur Verfügung stehen, haben andere Methoden wie neuronale Netzwerke zum Teil die Nase vorn“, räumt Felix Katzenburg ein. Eines der zentralen Ziele der Studie sei es jedoch gewesen, eine Methode zur Encodierung von Molekülen zu entwickeln, die auf jeden molekularen Datensatz anwendbar ist und kein Expertenwissen über die zugrundeliegenden Zusammenhänge voraussetzt.
Die Deutsche Forschungsgemeinschaft unterstützte die Arbeit finanziell.
Prof. Dr. Frank Glorius
Organisch-Chemisches Institut
Universität Münster
E-Mail: glorius@uni-muenster.de
Philipp M. Pflüger, Marius Kühnemund, Felix Katzenburg, Herbert Kuchen and Frank Glorius (2024): An evolutionary algorithm for interpretable molecular representations. Chem, DOI: https://doi.org/10.1016/j.chempr.2024.02.004
Criteria of this press release:
Journalists
Chemistry, Information technology
transregional, national
Research results, Scientific Publications
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).