idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
16.04.2026 12:50

Memes ohne Hate-Speech: CISPA-Forscher entwickeln ToxicBench zur sicheren KI-Bilderzeugung

Felix Koltermann Unternehmenskommunikation
CISPA Helmholtz Center for Information Security

    Generative KI-Modelle lassen sich mit wenigen Worten dazu bringen, beleidigende oder diskriminierende Textbotschaften in Bilder einzubauen. Wie sich solche Ausgaben zuverlässig verhindern lassen, untersucht Aditya Kumar vom SPRINT-ML Lab am CISPA Helmholtz-Zentrum für Informationssicherheit. Mit ToxicBench hat er einen Testdatensatz entwickelt, der zeigt, wie gut Bild-KIs mit beleidigenden Eingaben umgehen. Hierzu entwickelte er auch eine Fine-Tuning-Strategie, um die Modelle anzupassen. Die Ergebnisse hat er im Paper „Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images“ auf der 40. AAAI Conference on Artificial Intelligence in Singapur vorgestellt.

    KI-Bildgeneratoren wie Stable Diffusion haben die Erstellung von Memes revolutioniert: Innerhalb von Sekunden lassen sich unzählige neue Bilder erzeugen. Ursprünglich ein subkulturelles Phänomen, sind Memes heute ein fester Bestandteil der Kommunikation in sozialen Netzwerken und der digitalen Öffentlichkeit. Ihre Besonderheit liegt in der Verbindung von Bild und Text: „Memes enthalten Textbeschriftungen, die direkt in Bilder eingebettet sind“, erklärt Kumar. Problematisch wird es, sobald diese Texte Beleidigungen oder diskriminierende Inhalte enthalten. Kumar und sein Team wollten herausfinden, wie sich die Generierung solcher problematischen Textbotschaften in KI-Bildern – ob Memes oder andere Bildtypen – kontrollieren lässt.

    Bestehende Sicherheitsdetektoren stoßen an Grenzen

    „Wir haben uns zunächst verfügbare Bildsicherheitsdetektoren. Sie wurden entwickelt, um sogenannte NSFW-Inhalte („not safe for work“) zu erkennen,“ so der Forscher. „Während sie sehr gut bei grenzwertigen Inhalten im Bild funktionierten, stoßen sie bei unsicherem Text an ihre Grenzen.“ Der Grund ist, dass visuelle Sicherheitsdetektoren auf Pixelebene arbeiten und nicht auf die Erkennung von unsicherem Text innerhalb von Bildern ausgelegt sind. „Sie können zwar visuelle Merkmale wie Nacktheit erkennen, aber sie verstehen nicht die semantische Bedeutung von in Bildern eingebettetem Text“, erklärt Kumar. Damit identifiziert die Studie eingebetteten Text als eigenständigen Sicherheitsrisikobereich, der von bisherigen NSFW-Ansätzen weitgehend unbeachtet blieb.

    Eine neue Fine-Tuning-Strategie gegen beleidigenden Text

    Um dieses Problem zu lösen, entwickelte der Forscher eine neuartige Fine-Tuning-Strategie, die gezielt die Textgenerierungsschichten der Modelle adressiert. „Normalerweise erzeugt ein unsicherer Prompt ein unsicheres Bild“, erläutert Kumar. „Unser Ansatz sorgt dafür, dass derselbe Prompt ein sicheres Bild erzeugt.“ Das problematische Wort wird dabei durch ein neutrales Wort ersetzt, während die Bildkomposition erhalten bleibt. „Anstatt also ein beleidigendes Wort zu generieren, wird das Modell auf ein konkretes harmloses Zielbild optimiert, das dem Ursprungswort ähnlich ist“, so Kumar. Dieses Nachtraining verändert die internen Schichten des Diffusionsmodells selbst, was den Prozess nachhaltig effektiv macht. Da der Prozess nur wenige der bis zu 40 Schichten der Modelle verändert, bleibt der Großteil des Bildgenerierungsprozesses unverändert, sodass die Bildqualität nicht beeinträchtigt wird.

    ToxicBench: Datensatz und Evaluationspipeline

    Um den Mehrwert für die Forschungs-Community zu erhöhen, hat Kumar ToxicBench veröffentlich, bestehend aus einem Vergleichs-Datensatz und zugehöriger Evaluationspipeline. Der Datensatz besteht aus 218 Prompt-Templates, 437 unsicheren Worten gepaart mit harmlosen Alternativen und über 73.000 Trainings- und 21.000 Test-Bild-Paaren. „Die Evaluationspipeline funktioniert in zwei Schritten,“ erklärt Kumar. „Zunächst generiert ein Diffusionsmodell ein Bild. Anschließend wird der darin enthaltene Text per Optical Character Recognition (OCR) extrahiert und von einem Toxizitätsklassifikator bewertet.“ Dafür führt die Studie auch neue Metriken ein, die speziell messen, wie stark sich generierter Text verändert, ohne die Bildqualität zu beeinträchtigen. So lässt sich überprüfen, ob Modelle unsicheren Text erzeugen. Bei Bedarf lässt sich dann die Fine-Tuning-Strategie anwenden, um das Modell zu optimieren. Die Arbeit liefert damit nicht nur ein konkretes Sicherheitsverfahren, sondern auch erstmals einen standardisierten Messrahmen für toxischen Text in generierten Bildern.

    Anwendung und Ausblick

    Open-Source-Modelle wie Stable Diffusion werden häufig von Startups und Entwickler:innen genutzt. ToxicBench, das kostenlos auf GitHub verfügbar ist, kann direkt zur Sicherheitsbewertung eingesetzt oder für das Fine-Tuning genutzt werden. „Besonders relevant ist dies für Bildungsanwendungen oder öffentlich zugängliche Systeme“, betont Kumar. Die modifizierten Modelle selbst sind bisher noch nicht veröffentlicht. Für die Zukunft planen Kumar und seine Kolleg:innen, unsichere Inhalte umfassender zu entfernen, nicht nur unsicheren Text. „Zudem arbeiten wir an der Verbesserung der Skalierbarkeit und an der Anwendung unseres Ansatzes auf neuere Diffusionsmodelle,“ so der CISPA-Forscher abschließend. Damit sind weitere Anwendungen zu erwarten, die KI-Bildgeneratoren noch sicherer machen.


    Originalpublikation:

    https://publications.cispa.de/articles/conference_contribution/Beautiful_Images_...


    Bilder

    Visualisierung zum Paper "Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images"
    Visualisierung zum Paper "Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text ...

    Copyright: CISPA


    Merkmale dieser Pressemitteilung:
    Journalisten, jedermann
    Informationstechnik
    überregional
    Forschungsergebnisse
    Deutsch


     

    Visualisierung zum Paper "Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images"


    Zum Download

    x

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).