Mit Künstlicher Intelligenz (KI) generierte Bilder sind für das menschliche Auge von echten Bildern oft kaum zu unterscheiden. Eine Lösung für dieses Problem könnten Wasserzeichen sein – sichtbare oder unsichtbare Kennzeichnungen in Bilddateien, die nachweisen, ob ein Bild von einer KI erzeugt wurde. Als besonders robust und schwer zu entfernen galten bislang sogenannte semantische Wasserzeichen, die direkt während der Bilderstellung tief in den Entstehungsprozess eingebettet werden.
Forschende aus der Cybersicherheit der Ruhr-Universität Bochum zeigen jedoch, dass diese Annahme trügt. Auf der „Computer Vision and Pattern Recognition (CVPR)“-Konferenz am 15. Juni 2025 in Nashville, USA, zeigten sie in einem Vortrag grundlegende Sicherheitslücken semantischer Wasserzeichen auf.
„Wir konnten zeigen, dass Angreifer mit vergleichsweise einfachen Mitteln semantische Wasserzeichen fälschen oder komplett entfernen können“, erklärt Andreas Müller aus der Fakultät für Informatik der Ruhr-Universität Bochum. Zusammen mit den Bochumer Forschenden Dr. Denis Lukovnikov, Jonas Thietke, Prof. Dr. Asja Fischer und Dr. Erwin Quiring hat er zwei neue Angriffsmöglichkeiten entwickelt.
Zwei neue Angriffe entwickelt
Die erste Methode, die sogenannte Imprinting-Attacke, arbeitet auf der Ebene der latenten Repräsentationen – also der tieferliegenden digitalen Signatur eines Bildes, auf der KI-Bildgeneratoren arbeiten. Dabei wird die verborgene Darstellung eines echten Bildes – sozusagen seine digitale Struktur – gezielt so angepasst, dass sie der eines wasserzeichen-behafteten Bildes ähnelt. So lässt sich das Wasserzeichen auf jedes beliebige echte Bild übertragen, obwohl das Referenz-Bild ursprünglich rein künstlich erzeugt war. Ein Angreifer kann einem KI-Anbieter gegenüber somit jedes beliebige Bild als wasserzeichenbehaftet, also generiert, aussehen lassen und somit gezielt echte Bilder als Fake aussehen lassen.
„Die zweite Methode, der Reprompting-Angriff, nutzt die Fähigkeit, ein wasserzeichen-behaftetes Bild in den latenten Raum zurückzuführen und anschließend mit einem neuen Prompt neu zu generieren. So entstehen beliebige neue generierte Bilder, die das gleiche Wasserzeichen tragen“, erklärt Co-Autor Dr. Erwin Quiring, ebenfalls Mitglied der Fakultät für Informatik.
Angriffe funktionieren unabhängig von KI-Architektur
Beide Angriffstechniken benötigen nur ein einziges Referenzbild mit dem Ziel-Wasserzeichen und funktionieren modellübergreifend – das heißt, sie sind unabhängig von der konkreten KI-Architektur, funktionieren also sowohl für ältere Diffusion-Modelle mit UNet als auch für neuere Diffusion Transformer. Das macht die Angriffe besonders gefährlich und zeigt die enorme Herausforderung bei der Absicherung dieser Wasserzeichentechnologie.
Für die Zukunft der Wasserzeichentechnologie sind diese Erkenntnisse laut den Forschenden besorgniserregend, weil es derzeit keine effektive Gegenmaßnahme gegen diese Angriffe gebe. „Das wirft die Frage auf, wie wir KI-generierte Inhalte künftig sicher kennzeichnen und authentifizieren können,“ so Andreas Müller. Die Bochumer Forschenden fordern daher, semantische Wasserzeichen grundlegend zu überdenken, um sie widerstandsfähiger und vertrauenswürdiger zu machen.
Förderung
Die Deutsche Forschungsgemeinschaft unterstützte die Arbeiten im Rahmen des Exzellenzclusters CASA (EXC 2092 CASA – 390781972). Weitere Förderung kam vom Ministerium für Kultur und Wissenschaft des Landes NRW im Rahmen des Lamarr Fellow Network.
Redaktion: Christina Scholten
Andreas Müller
Fakultät für Informatik
Ruhr-Universität Bochum
Tel.: +49 234 32 19901
E-Mail: andreas.mueller-t1x@ruhr-uni-bochum.de
Andreas Müller, Denis Lukovnikov, Jonas Thietke, Asja Fischer, Erwin Quiring: Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models, Computer Vision and Pattern Recognition, 2025, USA, Paper-Download, https://arxiv.org/pdf/2412.03283
Criteria of this press release:
Journalists
Information technology
transregional, national
Research results
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).