idw - Informationsdienst
Wissenschaft
Forschende der Technischen Universität München (TUM) und der TU Darmstadt haben untersucht, wie Text-zu-Bild-Generatoren in verschiedenen Sprachen mit Geschlechterrollen umgehen. Die Ergebnisse zeigen, dass die Modelle Geschlechterstereotype nicht nur abbilden, sondern sie sogar verstärken. Die Richtung und Stärke der Verzerrung sind dabei abhängig von der jeweiligen Sprache.
Auf Sozialen Medien, bei der Recherche im Internet oder auf Plakaten: Bilder, die von einer Künstlichen Intelligenz (KI) generiert wurden, sind inzwischen überall zu finden. Durch eine einfache Eingabe können Large Language Models (LLMs) wie ChatGPT inzwischen täuschend echte Bilder erstellen. Forschende haben nun belegt, dass bei der Generierung solcher künstlichen Bilder Geschlechterstereotype nicht nur reproduziert, sondern sogar verstärkt werden.
Forschende untersuchen Modelle in verschiedenen Sprachen
In der Studie haben die Forschenden Modelle hinsichtlich neun verschiedener Sprachen analysiert und die Ergebnisse miteinander verglichen. Bisherige Publikationen hatten sich in der Regel nur auf die englische Sprache fokussiert. Das Forschungsteam entwickelte dafür den Benchmark „Multilingual Assessment of Gender Bias in Image Generation“ (MAGBIG). Die Grundlage bildeten dabei gezielt konstruierte Berufsbezeichnungen. Untersucht wurden vier verschiedene Arten von Eingaben: direkte Prompts, die das generische Maskulinum nutzen („Arzt“), indirekte Beschreibungen („eine Person, die als Arzt arbeitet“), explizit feminine Prompts („Ärztin“, „female doctor“) sowie Gender*-Varianten („Arzt*innen).
Um die Ergebnisse vergleichbar zu machen, achteten die Forschenden zudem bei der Auswahl der Sprachen darauf, dass es Sprachen sind, die bei den Berufsbezeichnungen zwischen männlich und weiblich unterscheiden, wie zum Beispiel Deutsch, Spanisch und Französisch. Darüber hinaus flossen Sprachen ein, die nur ein grammatikalisches Geschlecht nutzen, aber bei den verwendeten Pronomen („her“, „his“) einen Unterschied machen, wie das im Englischen oder Japanischen der Fall ist. Und zuletzt berücksichtigten sie Sprachen, bei denen es kein grammatikalisches Geschlecht gibt, wie Koreanisch und Chinesisch.
KI-Bilder reproduzieren und verstärken Rollenbilder
Die Ergebnisse der Studie zeigen, dass direkte Prompts mit generischem Maskulinum die stärksten Verzerrungen aufweisen. So werden etwa Berufe wie Buchhalter überwiegend als weiße Männer dargestellt, Pflegeberufe hingegen als Frauen. Neutrale Umschreibungen oder Gender*-Formen können diese Stereotype nur leicht abmildern, während explizit feminine Prompts fast ausschließlich Frauen zeigen.
Neben der Geschlechterverteilung bewerteten die Forschenden auch, wie gut die Modelle die unterschiedlichen Eingaben verstehen und umsetzen. Hierbei zeigte sich, dass neutrale Formulierungen zwar die Geschlechterstereotype senken, allerdings gleichzeitig zu einer schlechteren Qualität bei der Übereinstimmung von eingegebenem Text und produziertem Bild führen.
„Unsere Ergebnisse machen deutlich, dass die Gestaltung von Sprache einen erheblichen Einfluss auf die Fairness von KI-Bildgeneratoren hat“, sagt Alexander Fraser, Professor für Data Analytics & Statistics am TUM Campus in Heilbronn. „Wer KI-Systeme einsetzt, sollte sich bewusst sein, dass unterschiedliche Formulierungen ganz unterschiedliche Bilder hervorrufen und damit gesellschaftliche Rollenbilder verstärken oder abschwächen können.“
„KI-Bildgeneratoren sind nicht neutral – sie illustrieren unsere Vorurteile in Hochauflösung, und das hängt entscheidend von der Sprache ab. Gerade in Europa, wo viele Sprachen aufeinandertreffen, ist das ein Weckruf: Faire KI muss sprachsensibel gedacht werden“, ergänzt Prof. Kristian Kersting, Ko-Direktor von hessian.AI und Ko-Sprecher des Exzellenzclusters „Vernünftige KI“ an der TU Darmstadt.
Besonders auffällig ist außerdem, dass die Stärke der Verzerrungen nicht eindeutig mit den grammatikalischen Strukturen einer Sprache zusammenhängt. Die gleichen Prompts in Spanisch statt in Französisch führen dazu, dass Stereotype vermehrt auftreten, obwohl beide Sprachen zwischen männlichen und weiblichen Berufsbezeichnungen auf die gleiche Weise unterscheiden.
Prof. Dr. Alexander Fraser
Technische Universität München
Professur für Data Analytics & Statistics (DSS)
alexander.fraser@tum.de
Felix Friedrich, Katharina Hämmerl, Patrick Schramowski, Manuel Brack, Jindřich Libovický, Kristian Kersting, and Alexander Fraser. Multilingual Text-to-Image Generation Magnifies Gender Stereotypes. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (2025). DOI: 10.18653/v1/2025.acl-long.966
https://www.tum.de/aktuelles/alle-meldungen/pressemitteilungen/details/staerke-v...
Criteria of this press release:
Journalists
Information technology, Social studies
transregional, national
Research results, Scientific Publications
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).