idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
01/23/2026 09:58

Neue KI-Software vereinfacht Recherche für Wissenschaftsjournalist*innen

Sybille Fuhrmann Referat für Kommunikation und Marketing, Team Presse- und Öffentlichkeitsarbeit
Technische Hochschule Köln

    Wissenschaftliche Publikationen enthalten eine Fülle von Informationen in verschiedenen Formaten wie Texten, Abbildungen und Grafiken. Diese sind jedoch oft nur schwer durchsuchbar. Um Journalist*innen bei der Auswertung dieser umfangreichen und komplexen Datenbestände zu unterstützen, haben Forschende der TH Köln eine KI-Software entwickelt, die wie ein Chatbot funktioniert. Einige Bausteine der Open-Source-Software sind frei zugänglich.

    „Wissenschaftsjournalist*innen stehen vor der Herausforderung, eine schier unüberschaubare Menge an wissenschaftlichen Publikationen zu sichten. Klassische Suchsysteme liefern einfache Trefferlisten, die mühselig einzeln geprüft werden müssen. Das macht die Recherche zeitintensiv. Und da sie zudem meist nur den Volltext durchsuchen, können wichtige Daten, beispielsweise in Tabellen, unentdeckt bleiben“, erklärt Prof. Dr. Philipp Schaer vom Institut für Informationswissenschaft der TH Köln.

    Ausgehend von Interviews mit Wissenschaftsjournalist*innen des Science Media Center Germany – einer gemeinnützigen Organisation, die als Vermittler zwischen Wissenschaft und Journalismus fungiert – gewann das Projektteam zunächst ein tieferes Verständnis der Anforderungen und Herausforderungen. Darauf aufbauend entwickelten die Forschenden eine Softwareumgebung, die auf einer Open-Source-Software-Bibliothek basiert. Die Software-Bibliothek ermöglicht es, die Inhalte aus wissenschaftlichen Dokumenten in einem ersten Schritt mithilfe definierter Regeln zu extrahieren und durchsuchbar zu machen. In einem darauffolgenden Schritt wird ein modernerer Ansatz auf Basis von semantischen Textrepräsentationen und Large Language Models genutzt, um Texte und Tabellen auch inhaltlich zu verarbeiten.

    „Um diesen Kern herum haben wir eine Software gebaut, die wie ein Chatbot funktioniert. Nutzer*innen stellen eine Anfrage, das System durchsucht den gesamten Dokumentenbestand und stellt die Informationen bereit. Im nächsten Schritt werden diese Daten automatisch verarbeitet, um die Anfrage unter Angabe von Quellen möglichst präzise zu beantworten. Dieser Vorgang nennt sich RAG, das steht für Retrieval Augmented Generation“, beschreibt Schaer die Vorgehensweise des neuen Suchsystems.

    Evaluation mit umfangreicher Dokumentensammlung

    Um die Software zu evaluieren, wurden Suchanfragen mit einer standardisierten Testkollektion zur COVID-19-Pandemie mit über 160.000 Dokumenten durchgeführt. „Die Auswertung zeigte, dass ein erweiterter Suchzugang mit Tabellen und weiteren nichttextlichen Informationen bei dem RAG-basierten System zu deutlich besseren Ergebnissen führt als klassische Keyword-Suchen. Dies kann zu einer qualitativ besseren und schnelleren journalistischen Aufbereitung wissenschaftlicher Erkenntnisse beitragen“, so Schaer.

    Des Weiteren flossen die Ergebnisse der Dissertation des wissenschaftlichen Mitarbeiters Björn Engelmann in das Projekt ein. Er untersuchte, wie verschiedene interne und externe Kontextfaktoren bei der Entwicklung und Evaluation von Informationszugangssystemen berücksichtigt werden können. Hierzu zählen zum Beispiel das Vorwissen der Nutzenden und unterschiedliche Anwendungsgruppen wie Wissenschaftsjournalist*innen sowie die Art der Datenbereitstellung. „Meine Arbeit hat unter anderem geholfen, die Zielgruppe besser zu verstehen und ihre spezifischen Bedürfnisse zu berücksichtigen. Dadurch konnte das im Projekt entstandene Suchsystem zugänglicher gestaltet werden“, erläutert Engelmann.

    Simulationen für weitere Verbesserungen der Software

    Zudem wurden umfangreiche Simulationen durchgeführt, um das Verhalten von Anwender*innen bei der Suche nach Tabelleninhalten realitätsnah nachzubilden. Dabei erzeugte ein computergestütztes Modell eine Abfolge von Aktionen: vom Formulieren einer Suchanfrage über das Anklicken und Bewerten von Suchergebnissen bis hin zur Auswahl relevanter Informationen. „Durch diese Methode konnten wir verschiedene Szenarien und Parameter testen, etwa wie oft Nutzer*innen neue Anfragen stellen oder wie sie auf unterschiedliche Inhalte reagieren, ohne den hohen Aufwand einer Evaluation mit echten Menschen“, sagt Engelmann.

    Das Science Media Center Germany wird die Software für interne Zwecke weiterentwickeln. Einzelne Bausteine sind auf der Entwicklungsplattform GitHub frei verfügbar unter:

    - Zielgruppenspezifische Evaluation von Text-Komplexität: https://github.com/irgroup/ARTS

    - Kontextsensitive Simulation von Suchverhalten: https://github.com/irgroup/SUIR

    - Simulation von Tabellensuche: https://github.com/irgroup/simiir-wtr

    - Extraktion und RAG System mit Evaluation: https://github.com/irgroup/Reanimator

    Über das Projekt
    Das Forschungsprojekt „Journalistic Information Extraction“ (JoIE) wurde von Prof. Dr. Philipp Schaer und dem wissenschaftlichen Mitarbeiter Björn Engelmann vom Institut für Informationswissenschaft der TH Köln durchgeführt. Projektpartner war das Science Media Center Germany. Die Klaus Tschira Stiftung gGmbH förderte das Vorhaben über vier Jahre mit rund 380.000 Euro.

    Die TH Köln zählt zu den innovativsten Hochschulen für Angewandte Wissenschaften. Sie bietet Studierenden sowie Wissenschaftlerinnen und Wissenschaftlern aus dem In- und Ausland ein inspirierendes Lern-, Arbeits- und Forschungsumfeld in den Sozial-, Kultur-, Gesellschafts-, Ingenieur- und Naturwissenschaften. Zurzeit sind über 21.000 Studierende in mehr als 90 Bachelor- und Masterstudiengängen eingeschrieben. Die TH Köln gestaltet Soziale Innovation – mit diesem Anspruch begegnen wir den Herausforderungen der Gesellschaft. Unser interdisziplinäres Denken und Handeln, unsere regionalen, nationalen und internationalen Aktivitäten machen uns in vielen Bereichen zur geschätzten Kooperationspartnerin und Wegbereiterin.


    Images

    Criteria of this press release:
    Journalists, Scientists and scholars, Teachers and pupils
    Information technology, Media and communication sciences, Social studies, Teaching / education
    transregional, national
    Research projects
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).