idw - Informationsdienst
Wissenschaft
Chemiker am LIKAT in Rostock entwickelten eine digitale Plattform, die Daten aus der Katalyseforschung miteinander verknüpft und der Fachwelt zu Recherche und Austausch sowie für künftige KI-Anwendungen in dieser komplexen Disziplin bereitstellt. Herzstück der cloudbasierten Datenbank ist das digitale Wörterbuch Voc4Cat. Es definiert nutzerfreundlich und maschinenlesbar relevante Begriffe, etwa zu Vorgehensweisen, Ausgangsstoffen und Produkten der Laborarbeit sowie zur Analytik und Modellierung. Voc4Cat steht der Community als Open source über GitHub zur Verfügung.
Wie bei Wikipedia ist die Mitarbeit für angemeldete Nutzer möglich, die diesen digitalen Wissensspeicher also sukzessive mit Daten füttern können. Das System entstand am Rostocker Leibniz-Institut für Katalyse mit DFG-Geldern im Rahmen des NFDI4Cat-Konsortiums als Teil der Nationalen Forschungsdateninfrastruktur (NFDI). Es wurde in den zurückliegenden zwei Jahren von einem Team um den LIKAT-Chemiker Dr. David Linke entwickelt. David Linke programmierte auch gemeinsam mit Dr. Nikolaos Moustakas das erste Vokabular für Voc4Cat, das aktuell rund 500 Begriffe umfasst.
Katalyse als Schlüsseltechnologie
Die Katalyse entwickelt sich aktuell zur Schlüsseltechnologie, zum Beispiel für die Entwicklung einer nachhaltigen und vor allem klimafreundlichen Energieversorgung. Das macht sich an der rasch wachsenden Zahl von Publikationen und einer Flut von Daten bemerkbar. Dr. Moustakas: „Bisher nutzt jedes Forschungsteam bei Dokumentationen und Publikationen der Forschungsdaten seine eigenen Begriffe. Das erschwert die zunehmend KI-gestützte Verknüpfung von Forschungsdaten.“
Nach seinen Worten war es höchste Zeit, eine Grundlage für die Vernetzung von Forschungsergebnissen in der Katalysechemie und in angrenzenden Bereichen wie dem Chemieingenieurwesen und der Verfahrenstechnik zu schaffen. Das Open-source-Projekt ermögliche durch den Zugriff auf einen zentralen digitalen Speicher die gemeinsame Pflege und Erweiterung des Vokabulars durch die „Community“.
FAIR-Kriterien für Datenmanagement
Als Standard für das digitale Management von Forschungsdaten gelten weltweit die FAIR-Kriterien – Findability (Auffindbarkeit), Accessibility (Zugänglichkeit), Interoperability (Datenkompatibilität) und Re-Usability (Wiederverwendbarkeit). Interoperability bedeutet dabei, Forschungsdaten so aufzubereiten und zu dokumentieren, dass Maschinen sie eindeutig lesen sowie untereinander austauschen und verknüpfen können. Genau dazu trägt Voc4Cat bei.
„Für Programmierer ist vor allem die Datenkompatibilität eine Herausforderung, denn selbst in den sogenannten exakten Wissenschaften werden Fachbegriffe oft unterschiedlich verwendet“, sagt Nikolaos Moustakas. Zu jeder Vokabel gehört bei Voc4Cat deshalb neben der Definition eine international eindeutige Identifikationsnummer, kurz IRI. Hinterlegt sind ebenso Angaben zu Autoren und weiteren Quellen sowie Verweise auf Synonyme und auf inhaltliche Beziehungen zu anderen Methoden und Konzepten.
Kompatibel zu lokalen Netzwerken und ChemCatChem
Wer auch immer die Resultate seiner Forschung zur chemischen Katalyse veröffentlichen möchte, kann nun Schlüsselbegriffe seines Papers mit Voc4Cat verlinken und „seiner“ Formulierung eine definierte Bedeutung hinterlegen. Solche Vernetzung erleichtert es Autoren, mit ihren neuen Erkenntnissen im Netz gefunden und auch in Beziehung zu anderen wichtigen Themen gesetzt zu werden, was wiederum die vielgerühmte Zitationsrate eines Papers beeinflusst.
In Zusammenarbeit mit der Zeitschrift ChemCatChem aus dem Wiley Verlag wurden die wichtigsten Schlagwörter bereits in Voc4Cat aufgenommen. Alle Informationen und Vokabeln in Voc4Cat sind standardkonform und machinenlesbar, wodurch sie einfach in andere Software-Systeme, elektronische Laborjournale oder Foschungsdatenportale integriert werden können.
Eine Anleitung für eigene Einträge in das Wiki der Katalyse oder für Änderungsvorschläge im bisherigen Vokabular bekommen Nutzer unter dem Link zum GitHub des NFDI4Cat-Konsortiums. Voc4Cat-Kuratoren können ggf. unterstützen, in jedem Fall prüfen sie die Einträge auf fachliche Richtigkeit. „Alles verläuft offen, jeder kann nachverfolgen, was wir tun“, sagt Nikolaos Moustakas, der ebenso wie David Linke zu den Kuratoren zählt.
KI macht Papers Voc4Cat-kompatibel
Vor fünf Jahren war die Nationale Forschungsdateninfrastruktur, kurz NFDI e.V., von Bund und Ländern gegründet worden, um die Digitalisierung des Umgangs mit diesen Daten zu fördern. Derzeit trainiert Dr. Moustakas eine eigene Sprach-KI-Lösung, mit deren Hilfe Chemiker ihre bereits veröffentlichten Paper für das digitale Wörterbuch aufbereiten können. Das Tool wird dann in diesen Texten erkennen, auf welche Begriffe es zugreifen muss – gewissermaßen ein Voc4Cat-GPT. Ende des Jahres soll es verfügbar sein.
David.Linke@catalysis.de
Nikolaos.Moustakas@catalysis.de
Link zu Voc4Cat: https://nfdi4cat.github.io/voc4cat/
Unter seiner Federführung wurde Voc4Cat entwickelt: Dr. David Linke vom LIKAT
Quelle: LIKAT
Copyright: LIKAT
Entwickelt zu Voc4Cat eine eigene Sprach-KI-Lösung: Dr. Nikolaos Moustakas vom LIKAT
Quelle: privat
Copyright: LIKAT
Merkmale dieser Pressemitteilung:
Journalisten, Studierende, Wissenschaftler
Chemie, Gesellschaft, Informationstechnik
überregional
Forschungsergebnisse, Wissenschaftliche Publikationen
Deutsch

Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).