Ein LMU-Team hat eine Methode entwickelt, mit der Daten aus Nachhaltigkeitsberichten von Unternehmen zuverlässiger extrahiert werden können.
Große Unternehmen in der EU sind gesetzlich verpflichtet, ihre Treibhausgasemissionen zu erfassen. Diese Informationen per Hand aus langen PDF-Nachhaltigkeitsberichten zu extrahieren, ist jedoch zeitaufwendig und fehleranfällig. Viele Teams versuchen, diesen Prozess durch Automatisierung zu beschleunigen – beispielsweise durch den Einsatz von Large Language Models (LLMs), KI-Systemen, die Texte lesen und Antworten generieren.
Dr. Malte Schierholz, Projektkoordinator und Postdoktorand am Social Data Science and AI Lab (SODA Lab), mahnt jedoch zur Vorsicht: „Bei automatischen Extraktionsmethoden neigt man schnell dazu, den Ergebnissen eines LLMs voll und ganz zu vertrauen und dabei häufig auftretende Messfehler zu übersehen.“ Weil der Trend zur zunehmenden Automatisierung vielversprechend, aber gleichzeitig auch risikobehaftet ist, hat sich die Forschungsgruppe Greenhouse Gas Insights and Sustainability Tracking (GIST) zum Ziel gesetzt, eine zuverlässige Referenz für die Erfassung von Emissionsdaten zu schaffen.
Ein Goldstandard für die Erfassung von Emissionsdaten
In einer im Fachmagazin Scientific Data veröffentlichten Studie stellt die Gruppe einen Goldstandard-Vergleichsdatensatz für die Ermittlung von Treibhausgasemissionen vor. Der Datensatz basiert auf Nachhaltigkeitsberichten von Unternehmen aus dem MSCI World Small Cap Index und dem deutschen DAX. „Die Aufgabe bestand im Grunde darin, die Werte für Treibhausgasemissionen aus PDF-Dateien in eine Tabelle zu übertragen“, so Schierholz. „Was zunächst einfach klingt, erwies sich als überraschend komplex.“
In einem mehrstufigen Prozess arbeiteten Expertinnen und Experten für nachhaltige Finanzen der LMU und der Deutschen Bundesbank mit Methodik-Fachleuten zusammen, um klare Regeln für die Erfassung festzulegen, führten mehrere Extraktions- und Verifizierungsrunden durch und beriefen Experten-Diskussionsgruppen ein. „Wenn man einen Datensatz haben möchte, der sowohl genau ist als auch Vergleiche zwischen den Unternehmen ermöglicht, braucht man klare Regeln und viele Feedbackschleifen während des gesamten Datenerfassungsprozesses“, sagt Jacob Beck, der die Datenerfassung leitete. „Letztendlich mussten einige uneindeutige Fälle noch von einer Expertengruppe diskutiert werden.“
Viele Unternehmen dokumentieren unzureichend
Der Forscher für nachhaltige Finanzen Dr. Andreas Dimmelmeier (GreenDIA-Konsortium) war darüber nicht sonderlich überrascht: „“Schwer zu lösende Fälle resultieren nicht nur aus komplexen und teilweise inkonsistenten Berichtsprotokollen, sondern auch aus fehlenden Kontextinformationen und unvollständigen Angaben in Unternehmensberichten. Viele Unternehmen in unserer Stichprobe haben ihre Emissionen nicht gemäß dem etablierten Berichts- und Berechnungsrahmen offengelegt.“
Das Team stellte außerdem fest, dass etwa die Hälfte der Berichte überhaupt keine verwertbaren Treibhausgas-Daten enthielt. Wenn Emissionen angegeben wurden, dann am häufigsten direkte und indirekte aus dem Energieverbrauch. Weitere indirekte Emissionen, zum Beispiel solche, die entlang der Lieferketten entstehen oder Reise- und Transport-Emissionen, waren selten vollständig dokumentiert.
Der Datensatz bietet, zusammen mit den dazugehörigen Skripten und ergänzenden Materialien, eine transparente, sorgfältig aufbereitete Grundlage für die Bewertung automatisierter Ansätze zur Nachhaltigkeitsberichterstattung. Indem Annahmen und Entscheidungen explizit gemacht werden, ermöglicht er faire Methodenvergleiche und eine bessere Kommunikation der Unsicherheit in Bezug auf die Angaben. Die GIST-Gruppe hofft, dass diese Grundlage in der Forschung und praktischen Anwendung dabei helfen wird, Fortschritte ehrlicher zu messen und kritische Datenlücken auf dem Weg zu Netto-Null-Emissionen zu schließen.
Dr. Malte Schierholz
Social Data Science and AI Lab
Ludwig-Maximilians-Universität München
E-Mail: malte.schierholz@stat.uni-muenchen.de
Beck, J., Steinberg, A., Dimmelmeier, A. et al. Addressing data gaps in sustainability reporting: A benchmark dataset for greenhouse gas emission extraction. Scientific Data 12, 1497 (2025).
https://doi.org/10.1038/s41597-025-05664-8
Criteria of this press release:
Journalists
Economics / business administration, Environment / ecology, Geosciences, Mathematics, Social studies
transregional, national
Research results, Scientific Publications
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).