In wenigen Jahren ist aus dem wissenschaftlichen Projekt, KI-Modelle zur Generierung von Bildern zu verwenden, eine Alltagsanwendung geworden. Damit tauchen auch neue Probleme auf. Immer mehr Urheber:innen, wie Fotograf:innen oder Illustrator:innen, fragen sich, ob ihre Bilder für das Training von KI-Modellen verwendet wurden. CISPA-Forscher Antoni Kowalczuk hat nun ein Verfahren entwickelt, mit dem nachgewiesen werden kann, ob bestimmte Bilder zum Training eines KI-Modells benutzt wurden. Seine Ergebnisse hat er im Juni 2025 im Paper „CDI: Copyrighted Data Identification in Diffusion Models“ auf der IEEE Conference on Computer Vision and Pattern Recognition publiziert.
KI-Bildgeneratoren haben in den letzten Jahren ein rasantes Wachstum erfahren. Viele der Generatoren wie etwa DALL·E, Midjourney oder Stable Diffusion basieren auf sogenannten Diffusion Models. „Ein Diffusion Model ist ein tiefes neuronales Netz, das lernt, Bilder schrittweise zu erzeugen, indem es nach und nach Rauschen aus dem Bild entfernt“, erklärt Antoni Kowalczuk, PhD-Student am CISPA. Trainiert wurden diese Systeme mit Millionen von Bildern aus dem Internet. Dies geschah angeblich ohne Zustimmung der Urheber:innen, was rechtliche und ethische Probleme aufwirft. „Als die Modelle noch rein wissenschaftlichen Zwecken dienten, hat die Urheberrechtsfrage niemanden so wirklich interessiert“, erzählt Kowalczuk. „Aber ab dem Moment, in dem die Leute anfingen, mit den Modellen Geld zu verdienen, wurde das Thema plötzlich relevant. Ich dachte, dass ich da mit meiner Forschung etwas bewirken kann.“
Warum bisherige Methoden versagen
Bisherige Anwendungen, die herausfinden, ob KI-Modelle bestimmte Bilder als Trainingsmaterial verwenden, basieren auf einer Methode namens „Membership Inference Attacks“ (MIA). Diese versuchen zu beurteilen, ob ein einzelnes Bild zum Training eines KI-Modells verwendet wurde. Die Forschung zeigt jedoch, dass die Wirksamkeit solcher Angriffe (MIAs) gegen null geht, sobald die Modelle und ihre Trainingsdaten größer werden – was in der Regel der Fall ist.„Aus diesem Grund habe ich mit meinen Kolleg:innen eine neue Methode namens „Copyrighted Data Identification“ (CDI) entwickelt“, erzählt der CISPA-Forscher. „Grundlegend für CDI ist, dass wir nicht einzelne Bilder, sondern ganze Datensätze untersuchen – zum Beispiel eine Sammlung von Stockfotos oder ein digitales Kunstportfolio.“
Wie CDI funktioniert
Um zu überprüfen, ob urheberrechtlich geschütztes Material zum Training eines KI-Modells verwendet wurde, hat Kowalczuk für CDI ein vierstufiges Verfahren konzipiert. Zuerst müssen zwei Datensets zusammengestellt werden: „Im Ersten sind Bilder enthalten, von denen der Dateninhaber glaubt, dass sie zum Training dieses spezifischen Modells verwendet wurden. Das Zweite ist ein sogenannter Validierungssatz, der aus Bildern besteht, bei denen wir uns zu 100 % sicher sind, dass sie nicht beim Training verwendet wurden“, erklärt der Forscher. Anschließend lässt man beide Datensätze durch das KI-Modell laufen, um dessen Reaktionen zu beobachten. Auf Grundlage dieser Reaktionen wird ein Werkzeug trainiert, das erkennen kann, ob der betroffene Datensatz wahrscheinlich Teil der Trainingsdaten war. „Am Ende wird ein statistischer Test durchgeführt, um zu prüfen, ob die betroffenen Daten systematisch höhere Werte erzielen als die unveröffentlichten“, so der Forscher. Ist das der Fall, spricht das stark dafür, dass die KI mit diesen Daten trainiert wurde; ist das nicht der Fall, bleibt das Ergebnis offen.
Der CISPA-Forscher testete CDI an einer Reihe bestehender KI-Modelle, für die Informationen über die Trainingsdaten vorliegen – zum Beispiel Modelle, die mit dem ImageNet-Datensatz trainiert wurden. Dabei nutzte er sowohl echte Bilddatensätze (etwa aus der Open-Images-Datenbank) als auch gezielt manipulierte Testdaten. Die Ergebnisse sind vielversprechend, erzählt Kowalczuk: „CDI kann mit hoher Genauigkeit erkennen, ob ein Datensatz im Training war, auch bei komplexen, großen Modellen. Selbst wenn wir die exakten Bilder, die zum Training verwendet wurden, nicht eindeutig identifizieren können, lässt sich dennoch zuverlässig erkennen, ob Daten aus dem Datensatz zum Training des Modells verwendet wurden. CDI liefert auch dann zuverlässige Ergebnisse, wenn nur ein Teil des Gesamtwerks im Training genutzt wurde.“
Hürden für die Anwendung und den Transfer in die Praxis
Im Moment ist CDI noch eine Methode, deren Anwendung aufgrund ihrer Komplexität vor allem Wissenschaftler:innen vorbehalten ist. „Einige der von uns extrahierten Merkmale erfordern vollständigen Zugriff auf das Modell und seinen Code“, so Kowalczuk. „Darüber hinaus gibt es einige sehr wichtige Kriterien für die von uns verwendeten Datensamples.“ Insofern liefert CDI im Moment vor allem einen theoretischen Nachweis, dass es möglich ist herauszufinden, ob ein bestimmter Satz von Bildern zum Training von KI-Modellen verwendet wurde. Zur Entwicklung einer Anwendung, die auch Urheber:innen ohne großes technisches Know-how nutzen können, wären weitere Modifikationen und Entwicklungen notwendig, die im Moment jedoch technisch (noch) nicht lösbar erscheinen. „CDI ist noch ziemlich jung und es gibt noch viel zu tun. Aber eines ist klar: Wenn wir bessere Methoden haben, werden wir vielleicht irgendwann die Brücke von der Theorie zur Umsetzung überschreiten“, zeigt sich der CISPA-Forscher überzeugt.
Dubiński, Jan; Kowalczuk, Antoni; Boenisch, Franziska; Dziedzic, Adam (2025). CDI: Copyrighted Data Identification in Diffusion Models. CISPA. Conference contribution. https://doi.org/10.60882/cispa.29436212.v1
Visualisierung zum Paper "CDI: Copyrighted Data Identification in Diffusion Models"
Copyright: CISPA
Criteria of this press release:
Journalists, Scientists and scholars
Information technology
transregional, national
Research results
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).