idw - Informationsdienst
Wissenschaft
Wissenschaftliche Publikationen enthalten eine Fülle von Informationen in verschiedenen Formaten wie Texten, Abbildungen und Grafiken. Diese sind jedoch oft nur schwer durchsuchbar. Um Journalist*innen bei der Auswertung dieser umfangreichen und komplexen Datenbestände zu unterstützen, haben Forschende der TH Köln eine KI-Software entwickelt, die wie ein Chatbot funktioniert. Einige Bausteine der Open-Source-Software sind frei zugänglich.
„Wissenschaftsjournalist*innen stehen vor der Herausforderung, eine schier unüberschaubare Menge an wissenschaftlichen Publikationen zu sichten. Klassische Suchsysteme liefern einfache Trefferlisten, die mühselig einzeln geprüft werden müssen. Das macht die Recherche zeitintensiv. Und da sie zudem meist nur den Volltext durchsuchen, können wichtige Daten, beispielsweise in Tabellen, unentdeckt bleiben“, erklärt Prof. Dr. Philipp Schaer vom Institut für Informationswissenschaft der TH Köln.
Ausgehend von Interviews mit Wissenschaftsjournalist*innen des Science Media Center Germany – einer gemeinnützigen Organisation, die als Vermittler zwischen Wissenschaft und Journalismus fungiert – gewann das Projektteam zunächst ein tieferes Verständnis der Anforderungen und Herausforderungen. Darauf aufbauend entwickelten die Forschenden eine Softwareumgebung, die auf einer Open-Source-Software-Bibliothek basiert. Die Software-Bibliothek ermöglicht es, die Inhalte aus wissenschaftlichen Dokumenten in einem ersten Schritt mithilfe definierter Regeln zu extrahieren und durchsuchbar zu machen. In einem darauffolgenden Schritt wird ein modernerer Ansatz auf Basis von semantischen Textrepräsentationen und Large Language Models genutzt, um Texte und Tabellen auch inhaltlich zu verarbeiten.
„Um diesen Kern herum haben wir eine Software gebaut, die wie ein Chatbot funktioniert. Nutzer*innen stellen eine Anfrage, das System durchsucht den gesamten Dokumentenbestand und stellt die Informationen bereit. Im nächsten Schritt werden diese Daten automatisch verarbeitet, um die Anfrage unter Angabe von Quellen möglichst präzise zu beantworten. Dieser Vorgang nennt sich RAG, das steht für Retrieval Augmented Generation“, beschreibt Schaer die Vorgehensweise des neuen Suchsystems.
Evaluation mit umfangreicher Dokumentensammlung
Um die Software zu evaluieren, wurden Suchanfragen mit einer standardisierten Testkollektion zur COVID-19-Pandemie mit über 160.000 Dokumenten durchgeführt. „Die Auswertung zeigte, dass ein erweiterter Suchzugang mit Tabellen und weiteren nichttextlichen Informationen bei dem RAG-basierten System zu deutlich besseren Ergebnissen führt als klassische Keyword-Suchen. Dies kann zu einer qualitativ besseren und schnelleren journalistischen Aufbereitung wissenschaftlicher Erkenntnisse beitragen“, so Schaer.
Des Weiteren flossen die Ergebnisse der Dissertation des wissenschaftlichen Mitarbeiters Björn Engelmann in das Projekt ein. Er untersuchte, wie verschiedene interne und externe Kontextfaktoren bei der Entwicklung und Evaluation von Informationszugangssystemen berücksichtigt werden können. Hierzu zählen zum Beispiel das Vorwissen der Nutzenden und unterschiedliche Anwendungsgruppen wie Wissenschaftsjournalist*innen sowie die Art der Datenbereitstellung. „Meine Arbeit hat unter anderem geholfen, die Zielgruppe besser zu verstehen und ihre spezifischen Bedürfnisse zu berücksichtigen. Dadurch konnte das im Projekt entstandene Suchsystem zugänglicher gestaltet werden“, erläutert Engelmann.
Simulationen für weitere Verbesserungen der Software
Zudem wurden umfangreiche Simulationen durchgeführt, um das Verhalten von Anwender*innen bei der Suche nach Tabelleninhalten realitätsnah nachzubilden. Dabei erzeugte ein computergestütztes Modell eine Abfolge von Aktionen: vom Formulieren einer Suchanfrage über das Anklicken und Bewerten von Suchergebnissen bis hin zur Auswahl relevanter Informationen. „Durch diese Methode konnten wir verschiedene Szenarien und Parameter testen, etwa wie oft Nutzer*innen neue Anfragen stellen oder wie sie auf unterschiedliche Inhalte reagieren, ohne den hohen Aufwand einer Evaluation mit echten Menschen“, sagt Engelmann.
Das Science Media Center Germany wird die Software für interne Zwecke weiterentwickeln. Einzelne Bausteine sind auf der Entwicklungsplattform GitHub frei verfügbar unter:
- Zielgruppenspezifische Evaluation von Text-Komplexität: https://github.com/irgroup/ARTS
- Kontextsensitive Simulation von Suchverhalten: https://github.com/irgroup/SUIR
- Simulation von Tabellensuche: https://github.com/irgroup/simiir-wtr
- Extraktion und RAG System mit Evaluation: https://github.com/irgroup/Reanimator
Über das Projekt
Das Forschungsprojekt „Journalistic Information Extraction“ (JoIE) wurde von Prof. Dr. Philipp Schaer und dem wissenschaftlichen Mitarbeiter Björn Engelmann vom Institut für Informationswissenschaft der TH Köln durchgeführt. Projektpartner war das Science Media Center Germany. Die Klaus Tschira Stiftung gGmbH förderte das Vorhaben über vier Jahre mit rund 380.000 Euro.
Die TH Köln zählt zu den innovativsten Hochschulen für Angewandte Wissenschaften. Sie bietet Studierenden sowie Wissenschaftlerinnen und Wissenschaftlern aus dem In- und Ausland ein inspirierendes Lern-, Arbeits- und Forschungsumfeld in den Sozial-, Kultur-, Gesellschafts-, Ingenieur- und Naturwissenschaften. Zurzeit sind über 21.000 Studierende in mehr als 90 Bachelor- und Masterstudiengängen eingeschrieben. Die TH Köln gestaltet Soziale Innovation – mit diesem Anspruch begegnen wir den Herausforderungen der Gesellschaft. Unser interdisziplinäres Denken und Handeln, unsere regionalen, nationalen und internationalen Aktivitäten machen uns in vielen Bereichen zur geschätzten Kooperationspartnerin und Wegbereiterin.
Merkmale dieser Pressemitteilung:
Journalisten, Lehrer/Schüler, Wissenschaftler
Gesellschaft, Informationstechnik, Medien- und Kommunikationswissenschaften, Pädagogik / Bildung
überregional
Forschungsprojekte
Deutsch

Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).