idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
04/16/2026 12:50

Memes ohne Hate-Speech: CISPA-Forscher entwickeln ToxicBench zur sicheren KI-Bilderzeugung

Felix Koltermann Unternehmenskommunikation
CISPA Helmholtz Center for Information Security

    Generative KI-Modelle lassen sich mit wenigen Worten dazu bringen, beleidigende oder diskriminierende Textbotschaften in Bilder einzubauen. Wie sich solche Ausgaben zuverlässig verhindern lassen, untersucht Aditya Kumar vom SPRINT-ML Lab am CISPA Helmholtz-Zentrum für Informationssicherheit. Mit ToxicBench hat er einen Testdatensatz entwickelt, der zeigt, wie gut Bild-KIs mit beleidigenden Eingaben umgehen. Hierzu entwickelte er auch eine Fine-Tuning-Strategie, um die Modelle anzupassen. Die Ergebnisse hat er im Paper „Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images“ auf der 40. AAAI Conference on Artificial Intelligence in Singapur vorgestellt.

    KI-Bildgeneratoren wie Stable Diffusion haben die Erstellung von Memes revolutioniert: Innerhalb von Sekunden lassen sich unzählige neue Bilder erzeugen. Ursprünglich ein subkulturelles Phänomen, sind Memes heute ein fester Bestandteil der Kommunikation in sozialen Netzwerken und der digitalen Öffentlichkeit. Ihre Besonderheit liegt in der Verbindung von Bild und Text: „Memes enthalten Textbeschriftungen, die direkt in Bilder eingebettet sind“, erklärt Kumar. Problematisch wird es, sobald diese Texte Beleidigungen oder diskriminierende Inhalte enthalten. Kumar und sein Team wollten herausfinden, wie sich die Generierung solcher problematischen Textbotschaften in KI-Bildern – ob Memes oder andere Bildtypen – kontrollieren lässt.

    Bestehende Sicherheitsdetektoren stoßen an Grenzen

    „Wir haben uns zunächst verfügbare Bildsicherheitsdetektoren. Sie wurden entwickelt, um sogenannte NSFW-Inhalte („not safe for work“) zu erkennen,“ so der Forscher. „Während sie sehr gut bei grenzwertigen Inhalten im Bild funktionierten, stoßen sie bei unsicherem Text an ihre Grenzen.“ Der Grund ist, dass visuelle Sicherheitsdetektoren auf Pixelebene arbeiten und nicht auf die Erkennung von unsicherem Text innerhalb von Bildern ausgelegt sind. „Sie können zwar visuelle Merkmale wie Nacktheit erkennen, aber sie verstehen nicht die semantische Bedeutung von in Bildern eingebettetem Text“, erklärt Kumar. Damit identifiziert die Studie eingebetteten Text als eigenständigen Sicherheitsrisikobereich, der von bisherigen NSFW-Ansätzen weitgehend unbeachtet blieb.

    Eine neue Fine-Tuning-Strategie gegen beleidigenden Text

    Um dieses Problem zu lösen, entwickelte der Forscher eine neuartige Fine-Tuning-Strategie, die gezielt die Textgenerierungsschichten der Modelle adressiert. „Normalerweise erzeugt ein unsicherer Prompt ein unsicheres Bild“, erläutert Kumar. „Unser Ansatz sorgt dafür, dass derselbe Prompt ein sicheres Bild erzeugt.“ Das problematische Wort wird dabei durch ein neutrales Wort ersetzt, während die Bildkomposition erhalten bleibt. „Anstatt also ein beleidigendes Wort zu generieren, wird das Modell auf ein konkretes harmloses Zielbild optimiert, das dem Ursprungswort ähnlich ist“, so Kumar. Dieses Nachtraining verändert die internen Schichten des Diffusionsmodells selbst, was den Prozess nachhaltig effektiv macht. Da der Prozess nur wenige der bis zu 40 Schichten der Modelle verändert, bleibt der Großteil des Bildgenerierungsprozesses unverändert, sodass die Bildqualität nicht beeinträchtigt wird.

    ToxicBench: Datensatz und Evaluationspipeline

    Um den Mehrwert für die Forschungs-Community zu erhöhen, hat Kumar ToxicBench veröffentlich, bestehend aus einem Vergleichs-Datensatz und zugehöriger Evaluationspipeline. Der Datensatz besteht aus 218 Prompt-Templates, 437 unsicheren Worten gepaart mit harmlosen Alternativen und über 73.000 Trainings- und 21.000 Test-Bild-Paaren. „Die Evaluationspipeline funktioniert in zwei Schritten,“ erklärt Kumar. „Zunächst generiert ein Diffusionsmodell ein Bild. Anschließend wird der darin enthaltene Text per Optical Character Recognition (OCR) extrahiert und von einem Toxizitätsklassifikator bewertet.“ Dafür führt die Studie auch neue Metriken ein, die speziell messen, wie stark sich generierter Text verändert, ohne die Bildqualität zu beeinträchtigen. So lässt sich überprüfen, ob Modelle unsicheren Text erzeugen. Bei Bedarf lässt sich dann die Fine-Tuning-Strategie anwenden, um das Modell zu optimieren. Die Arbeit liefert damit nicht nur ein konkretes Sicherheitsverfahren, sondern auch erstmals einen standardisierten Messrahmen für toxischen Text in generierten Bildern.

    Anwendung und Ausblick

    Open-Source-Modelle wie Stable Diffusion werden häufig von Startups und Entwickler:innen genutzt. ToxicBench, das kostenlos auf GitHub verfügbar ist, kann direkt zur Sicherheitsbewertung eingesetzt oder für das Fine-Tuning genutzt werden. „Besonders relevant ist dies für Bildungsanwendungen oder öffentlich zugängliche Systeme“, betont Kumar. Die modifizierten Modelle selbst sind bisher noch nicht veröffentlicht. Für die Zukunft planen Kumar und seine Kolleg:innen, unsichere Inhalte umfassender zu entfernen, nicht nur unsicheren Text. „Zudem arbeiten wir an der Verbesserung der Skalierbarkeit und an der Anwendung unseres Ansatzes auf neuere Diffusionsmodelle,“ so der CISPA-Forscher abschließend. Damit sind weitere Anwendungen zu erwarten, die KI-Bildgeneratoren noch sicherer machen.


    Original publication:

    https://publications.cispa.de/articles/conference_contribution/Beautiful_Images_...


    Images

    Visualisierung zum Paper "Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images"
    Visualisierung zum Paper "Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text ...

    Copyright: CISPA


    Criteria of this press release:
    Journalists, all interested persons
    Information technology
    transregional, national
    Research results
    German


     

    Visualisierung zum Paper "Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images"


    For download

    x

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).