Neue Studie zur Reaktion von Künstlicher Intelligenz auf Dialektäußerungen
Große Sprachmodelle wie GPT-5 oder Llama bewerten Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter. Das zeigt eine aktuelle Studie, bei der Prof. Dr. Katharina von der Wense und Minh Duc Bui von der Johannes Gutenberg-Universität Mainz (JGU) eine führende Rolle übernahmen. Ihre Ergebnisse wurden kürzlich im Rahmen der diesjährigen Conference on Empirical Methods in Natural Language Processing (EMNLP), einer bedeutenden Konferenz für Computerlinguistik, veröffentlicht. Gemeinsam mit Forschenden der Universitäten Hamburg und Washington hatten Bui und von der Wense untersucht, wie Künstliche Intelligenz (KI) auf Dialektäußerungen reagiert. Das Ergebnis: Sämtliche getesteten Modelle übernahmen stereotype Denkmuster aus der Gesellschaft.
"Dialekte sind zentraler Teil kultureller Identität", sagt Minh Duc Bui, Promovend in der Arbeitsgruppe "Natural Language Processing" (NLP) von Prof. Dr. Katharina von der Wense am Institut für Informatik der JGU. "Unsere Analysen legen allerdings nahe, dass Sprachmodelle Dialekte mit negativen Eigenschaften verknüpfen – und damit problematische gesellschaftliche Vorurteile weitertragen."
Auf Basis linguistischer Datenbanken mit orthografischen und phonetischen Varianten deutscher Dialekte hatte das Team zunächst sieben Dialektvarianten ins Standarddeutsche übertragen. Mit diesem parallelen Datensatz konnten sie systematisch vergleichen, wie Sprachmodelle denselben Inhalt – einmal in Standarddeutsch geschrieben, einmal im Dialekt – bewerten.
Voreingenommener, wenn Dialekte benannt werden
Untersucht wurden zehn große Sprachmodelle – von Open-Source-Modellen wie Gemma und Qwen bis zum kommerziellen System GPT-5. Diesen wurden schriftliche Texte in Standarddeutsch oder in einem von sieben Dialekten vorgelegt: Plattdeutsch, Bairisch, Nordfriesisch, Saterfriesisch, Ripuarisch – eine Dialektgruppe, zu der das Kölsche gehört –, Alemannisch sowie rheinfränkische Dialekte, zu denen auch Pfälzisch und Hessisch zählen.
Zum einen sollten die Systeme den fiktiven Sprechenden bestimmte Eigenschaften zuordnen – zum Beispiel "gebildet" oder "ungebildet". Zum anderen sollten sie zwischen zwei fiktiven Personen wählen – etwa bei einer Job-Entscheidung, der Zuordnung zu einem Workshop oder eines Wohnorts. Das Ergebnis: In nahezu allen Tests belegten die Modelle Dialektsprecherinnen und -sprecher mit Stereotypen. Während sie Standarddeutsch-Sprechende häufiger als "gebildet", "professionell" oder "vertrauenswürdig" beschrieben, bezeichneten sie Dialektsprechende als "ländlich", "traditionell" oder "ungebildet". Und selbst das positive Attribut "freundlich", das die soziolinguistische Forschung bislang eher Dialektsprechenden zugeschrieben hat, ordneten die KI-Modelle eher Standarddeutsch-Sprechenden zu.
Größere Modelle – mehr Vorurteile
Auch bei Entscheidungstests wurden Texte in regionalen Sprachvarianten systematisch benachteiligt – und zum Beispiel einem Beruf auf dem Bauernhof, einem Workshop gegen aufbrausenden Charakter oder einem Wohnort mit "offenen Feldern" zugeordnet. "Solche Zuschreibungen spiegeln gesellschaftliche Vorannahmen, die in den Trainingsdaten vieler Sprachmodelle verankert sind", erklärt Prof. Dr. Katharina von der Wense, die an der JGU im Bereich Sprachverarbeitung forscht. "Das ist problematisch, weil KI-Systeme zunehmend in Bildungskontexten oder etwa Bewerbungsverfahren eingesetzt werden, in denen ihnen Sprache als Indikator für Kompetenz oder Glaubwürdigkeit dient."
Besonders stark zeigte sich der Effekt, wenn das System im Versuch ausdrücklich auf den Dialekt hingewiesen wurde. Überraschend war zudem, dass größere Modelle innerhalb derselben Modellfamilie sogar stärkere Vorurteile zeigten. "Größere Modelle führen also nicht automatisch zu mehr Fairness", so Minh Duc Bui. "Stattdessen lernen sie gesellschaftliche Stereotype sogar mit höherer Präzision."
Ähnliche Muster im Englischen
Selbst im Vergleich mit künstlich verrauschten Standardtexten blieben die negativen Bewertungen gegenüber Dialektvarianten bestehen. Damit zeigten die Forschenden, dass die Diskriminierung nicht auf ungewohnte Schreibweisen zurückzuführen ist.
Die deutschen Dialekte stehen dabei modellhaft für ein universelles Problem. "Unsere Ergebnisse zeigen, wie Sprachmodelle weltweit mit regionaler oder sozialer Sprachvielfalt umgehen", erklärt Bui. "Denn Vorurteile gegenüber regionalen oder nicht standardisierten Sprachvarianten wurden auch für andere Sprachen, etwa für das afroamerikanische Englisch, beschrieben."
Künftige Forschung müsse zeigen, wie sich mögliche Vorurteile der KI gegenüber verschiedenen Dialekten unterscheiden und wie Sprachmodelle so konzipiert und trainiert werden können, dass sie sprachliche Vielfalt fairer abbilden. "Dialekte sind ein wichtiger Bestandteil sozialer Identität", betont von der Wense. "Dass Maschinen diese Vielfalt nicht nur erkennen, sondern auch respektieren, ist eine Frage technischer Fairness – und gesellschaftlicher Verantwortung."
Derzeit arbeiten die Mainzer Forschenden an einer neuen Studie zum Umgang großer Sprachmodelle mit Dialekten im Mainzer Raum.
Weiterführende Links:
• https://nala-cub.github.io/ – Arbeitsgruppe „Natural Language Processing” (NALA) von Prof. Dr. Katharina Wense
• https://www.informatik.uni-mainz.de/ – Institut für Informatik an der JGU
• https://minhducbui.github.io – Website von Minh Duc Bui
Minh Duc Bui
Natural Language Processing
Institut für Informatik
Johannes Gutenberg-Universität Mainz
55099 Mainz
E-Mail: minhducbui@uni-mainz.de
https://www.datamining.informatik.uni-mainz.de/minh-duc-bui/
M. D. Bui, K. von der Wense et al., Large Language Models Discriminate Against Speakers of German Dialects, Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4. November 2025,
DOI: 10.18653/v1/2025.emnlp-main.415
https://aclanthology.org/2025.emnlp-main.415/
Große Sprachmodelle bewerten Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter
Copyright: Abb./©: AG von der Wense; KI-unterstützt
Criteria of this press release:
Journalists, all interested persons
Cultural sciences, Information technology, Language / literature, Media and communication sciences, Social studies
transregional, national
Research results, Scientific Publications
German

You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).