idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
07.02.2024 10:59

GPT-3 für die chemische Forschung

Dr. Marco Körner Abteilung Hochschulkommunikation/Bereich Presse und Information
Friedrich-Schiller-Universität Jena

    Forschende der EPFL und der Universität Jena entwickeln schnelles und leicht zu nutzendes GPT-3-Modell für chemische Aufgaben

    GPT-3, das Sprachmodell hinter dem bekannten KI-System ChatGPT, kann auch in der Chemie eingesetzt werden, um verschiedene wissenschaftliche Aufgaben zu lösen. Das demonstrierte ein Team von Forschenden an der École polytechnique fédérale de Lausanne (EPFL), der Friedrich-Schiller-Universität Jena sowie des Helmholtz-Instituts für Polymere in Energieanwendungen (HIPOLE) Jena. Wie das Team im Fachmagazin „Nature Machine Intelligence“ berichtet, umgingen sie hierbei das Problem, dass es in der Chemie oftmals an den benötigten großen Datenmengen fehlt, die für das Training einer KI benötigt werden.

    Kuratierte Fragen und Antworten statt großer Datenmengen

    „Eines von verschiedenen Beispielen, die wir verwendet haben, sind sogenannte lichtempfindliche Schalter“, illustriert Kevin Jablonka, Erstautor der Arbeit. „Das sind Moleküle, die ihre Struktur ändern wenn Licht einer bestimmten Wellenlänge auf sie fällt. Diese Art von Molekülen gibt es auch im menschlichen Körper: In unseren Netzhautzellen befindet sich das Molekül Rhodopsin, das auf Licht reagiert und damit letztendlich als chemischer Schalter dient, der optische Signale in Nervenimpulse umwandelt“, ergänzt er. „Die Frage, ob und wie ein bislang unbekanntes Molekül durch Licht schaltbar ist, ist also durchaus relevant – etwa wenn es darum geht, Sensoren zu entwickeln“, fasst er zusammen. „Aber auch die Frage, ob ein Molekül in Wasser gelöst werden kann, haben wir eingebracht“, nennt Jablonka als weiteres Beispiel, „denn gerade bei pharmakologischen Wirkstoffen ist die Wasserlöslichkeit ein wichtiger Faktor, damit die gewünschte Wirkung im Körper entfaltet wird.“

    Um ihr GPT-Modell so zu trainieren, dass es diese und andere Fragen beantworten kann, musste die Gruppe jedoch ein grundlegendes Problem lösen: „GPT-3 kennt den größten Teil der chemischen Fachliteratur nicht“, erklärt Jablonka. „Die Antworten, die wir von diesem Modell erhalten, beschränken sich also üblicherweise auf das, was man auch in der Wikipedia finden kann.“

    Stattdessen, so erklärt Jablonka weiter, habe die Gruppe GPT-3 mit einem Datensatz aus vergleichsweise wenigen Fragen und Antworten gezielt verbessert. „Wir haben also das Modell mit Fragen gefüttert – etwa nach lichtempfindlichen schaltbaren Molekülen, aber auch zur Löslichkeit bestimmter Moleküle in Wasser und anderen chemischen Aspekten – wobei wir bei unseren ,Lehrbeispielen‘ auch die jeweils zugehörige bekannte Antwort mit angegeben haben“, führt er aus. So haben er und sein Team ein Sprachmodell erschaffen, das in der Lage ist, zu verschiedenen chemischen Problemstellungen korrekte Erkenntnisse zu liefern.

    Schnell, akkurat und leicht zu benutzen

    Anschließend wurde das Modell getestet. „Die wissenschaftliche Frage nach einem durch Licht schaltbaren Molekül kann etwa so aussehen“, verdeutlicht Jablonka: „Was ist die Wellenlänge des pi–pi*-Übergangs von CN1C(/N=N/ C2=CC=CC=C2)=C(C)C=C1C?“ Da das Modell textbasiert ist, können keine Strukturformeln angegeben werden, erklärt er. „Aber unser GPT arbeitet gut mit den sogenannten SMILES-Codes für Moleküle, wie im oben genannten Beispiel“, sagt er. „Aber auch andere Notationen erkennt es. Dazu gehören auch chemische Namen die der sogenannten IUPAC-Nomenklatur folgen, wie man sie vielleicht noch aus dem Chemie-Unterricht kennt“, so Jablonka weiter.

    In den Tests löste das Modell verschiedenste chemische Problemstellungen. Hierbei schnitt es oftmals sogar besser ab als ähnliche Modelle, die bisher in der Wissenschaft entwickelt und mit großen Datenmengen trainiert wurden. „Das Entscheidende aber ist, dass unser GPT so einfach zu bedienen ist wie eine Literaturrecherche, die für viele chemische Probleme funktioniert – etwa zu Stoffeigenschaften wie die Löslichkeit, aber auch thermodynamische und photochemische Eigenschaften wie die Lösungsenthalpie oder die Interaktion mit Licht – und natürlich das chemische Reaktionsvermögen“, ergänzt Prof. Dr. Berend Smit von der EPFL Lausanne.


    Wissenschaftliche Ansprechpartner:

    Dr. Kevin Maik Jablonka
    Institut für Organische Chemie und Makromolekulare Chemie der Friedrich-Schiller-Universität Jena
    E-Mail: kevin.jablonka@uni-jena.de


    Originalpublikation:

    Kevin Maik Jablonka, Philippe Schwaller, Andres Ortega-Guerrero, Berend Smit: „Leveraging large language models for predictive chemistry“, Nature Machine Intelligence 2023, DOI: 10.1038/s42256-023-00788-1


    Bilder

    Dr. Kevin Jablonka ist Nachwuchsgruppenleiter am Institut für Organische Chemie und Makromolekulare Chemie der Universität Jena.
    Dr. Kevin Jablonka ist Nachwuchsgruppenleiter am Institut für Organische Chemie und Makromolekulare ...
    Foto: Jens Meyer/Uni Jena


    Merkmale dieser Pressemitteilung:
    Journalisten, Wissenschaftler
    Chemie, Informationstechnik
    überregional
    Forschungsergebnisse, Wissenschaftliche Publikationen
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).