KI-Sprachmodelle zeigen Vorurteile gegen regionale deutsche Sprachvarianten

12.11.2025 16:57

KI-Sprachmodelle zeigen Vorurteile gegen regionale deutsche Sprachvarianten

Kathrin Voigt Kommunikation und Presse
Johannes Gutenberg-Universität Mainz

Neue Studie zur Reaktion von Künstlicher Intelligenz auf Dialektäußerungen

Große Sprachmodelle wie GPT-5 oder Llama bewerten Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter. Das zeigt eine aktuelle Studie, bei der Prof. Dr. Katharina von der Wense und Minh Duc Bui von der Johannes Gutenberg-Universität Mainz (JGU) eine führende Rolle übernahmen. Ihre Ergebnisse wurden kürzlich im Rahmen der diesjährigen Conference on Empirical Methods in Natural Language Processing (EMNLP), einer bedeutenden Konferenz für Computerlinguistik, veröffentlicht. Gemeinsam mit Forschenden der Universitäten Hamburg und Washington hatten Bui und von der Wense untersucht, wie Künstliche Intelligenz (KI) auf Dialektäußerungen reagiert. Das Ergebnis: Sämtliche getesteten Modelle übernahmen stereotype Denkmuster aus der Gesellschaft.

"Dialekte sind zentraler Teil kultureller Identität", sagt Minh Duc Bui, Promovend in der Arbeitsgruppe "Natural Language Processing" (NLP) von Prof. Dr. Katharina von der Wense am Institut für Informatik der JGU. "Unsere Analysen legen allerdings nahe, dass Sprachmodelle Dialekte mit negativen Eigenschaften verknüpfen – und damit problematische gesellschaftliche Vorurteile weitertragen."

Auf Basis linguistischer Datenbanken mit orthografischen und phonetischen Varianten deutscher Dialekte hatte das Team zunächst sieben Dialektvarianten ins Standarddeutsche übertragen. Mit diesem parallelen Datensatz konnten sie systematisch vergleichen, wie Sprachmodelle denselben Inhalt – einmal in Standarddeutsch geschrieben, einmal im Dialekt – bewerten.

Voreingenommener, wenn Dialekte benannt werden

Untersucht wurden zehn große Sprachmodelle – von Open-Source-Modellen wie Gemma und Qwen bis zum kommerziellen System GPT-5. Diesen wurden schriftliche Texte in Standarddeutsch oder in einem von sieben Dialekten vorgelegt: Plattdeutsch, Bairisch, Nordfriesisch, Saterfriesisch, Ripuarisch – eine Dialektgruppe, zu der das Kölsche gehört –, Alemannisch sowie rheinfränkische Dialekte, zu denen auch Pfälzisch und Hessisch zählen.

Zum einen sollten die Systeme den fiktiven Sprechenden bestimmte Eigenschaften zuordnen – zum Beispiel "gebildet" oder "ungebildet". Zum anderen sollten sie zwischen zwei fiktiven Personen wählen – etwa bei einer Job-Entscheidung, der Zuordnung zu einem Workshop oder eines Wohnorts. Das Ergebnis: In nahezu allen Tests belegten die Modelle Dialektsprecherinnen und -sprecher mit Stereotypen. Während sie Standarddeutsch-Sprechende häufiger als "gebildet", "professionell" oder "vertrauenswürdig" beschrieben, bezeichneten sie Dialektsprechende als "ländlich", "traditionell" oder "ungebildet". Und selbst das positive Attribut "freundlich", das die soziolinguistische Forschung bislang eher Dialektsprechenden zugeschrieben hat, ordneten die KI-Modelle eher Standarddeutsch-Sprechenden zu.

Größere Modelle – mehr Vorurteile

Auch bei Entscheidungstests wurden Texte in regionalen Sprachvarianten systematisch benachteiligt – und zum Beispiel einem Beruf auf dem Bauernhof, einem Workshop gegen aufbrausenden Charakter oder einem Wohnort mit "offenen Feldern" zugeordnet. "Solche Zuschreibungen spiegeln gesellschaftliche Vorannahmen, die in den Trainingsdaten vieler Sprachmodelle verankert sind", erklärt Prof. Dr. Katharina von der Wense, die an der JGU im Bereich Sprachverarbeitung forscht. "Das ist problematisch, weil KI-Systeme zunehmend in Bildungskontexten oder etwa Bewerbungsverfahren eingesetzt werden, in denen ihnen Sprache als Indikator für Kompetenz oder Glaubwürdigkeit dient."

Besonders stark zeigte sich der Effekt, wenn das System im Versuch ausdrücklich auf den Dialekt hingewiesen wurde. Überraschend war zudem, dass größere Modelle innerhalb derselben Modellfamilie sogar stärkere Vorurteile zeigten. "Größere Modelle führen also nicht automatisch zu mehr Fairness", so Minh Duc Bui. "Stattdessen lernen sie gesellschaftliche Stereotype sogar mit höherer Präzision."

Ähnliche Muster im Englischen

Selbst im Vergleich mit künstlich verrauschten Standardtexten blieben die negativen Bewertungen gegenüber Dialektvarianten bestehen. Damit zeigten die Forschenden, dass die Diskriminierung nicht auf ungewohnte Schreibweisen zurückzuführen ist.

Die deutschen Dialekte stehen dabei modellhaft für ein universelles Problem. "Unsere Ergebnisse zeigen, wie Sprachmodelle weltweit mit regionaler oder sozialer Sprachvielfalt umgehen", erklärt Bui. "Denn Vorurteile gegenüber regionalen oder nicht standardisierten Sprachvarianten wurden auch für andere Sprachen, etwa für das afroamerikanische Englisch, beschrieben."

Künftige Forschung müsse zeigen, wie sich mögliche Vorurteile der KI gegenüber verschiedenen Dialekten unterscheiden und wie Sprachmodelle so konzipiert und trainiert werden können, dass sie sprachliche Vielfalt fairer abbilden. "Dialekte sind ein wichtiger Bestandteil sozialer Identität", betont von der Wense. "Dass Maschinen diese Vielfalt nicht nur erkennen, sondern auch respektieren, ist eine Frage technischer Fairness – und gesellschaftlicher Verantwortung."

Derzeit arbeiten die Mainzer Forschenden an einer neuen Studie zum Umgang großer Sprachmodelle mit Dialekten im Mainzer Raum.

Weiterführende Links:
• https://nala-cub.github.io/ – Arbeitsgruppe „Natural Language Processing” (NALA) von Prof. Dr. Katharina Wense
• https://www.informatik.uni-mainz.de/ – Institut für Informatik an der JGU
• https://minhducbui.github.io – Website von Minh Duc Bui

Wissenschaftliche Ansprechpartner:

Minh Duc Bui
Natural Language Processing
Institut für Informatik
Johannes Gutenberg-Universität Mainz
55099 Mainz
E-Mail: minhducbui@uni-mainz.de
https://www.datamining.informatik.uni-mainz.de/minh-duc-bui/

Originalpublikation:

M. D. Bui, K. von der Wense et al., Large Language Models Discriminate Against Speakers of German Dialects, Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4. November 2025,
DOI: 10.18653/v1/2025.emnlp-main.415
https://aclanthology.org/2025.emnlp-main.415/

Bilder

Große Sprachmodelle bewerten Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter

Copyright: Abb./©: AG von der Wense; KI-unterstützt

Merkmale dieser Pressemitteilung:
Journalisten, jedermann
Gesellschaft, Informationstechnik, Kulturwissenschaften, Medien- und Kommunikationswissenschaften, Sprache / Literatur
überregional
Forschungsergebnisse, Wissenschaftliche Publikationen
Deutsch

idw – Informationsdienst Wissenschaft

idw-News App:

KI-Sprachmodelle zeigen Vorurteile gegen regionale deutsche Sprachvarianten

Kathrin Voigt Kommunikation und Presse
Johannes Gutenberg-Universität Mainz

Wissenschaftliche Ansprechpartner:

Originalpublikation:

idw-News App:

KI-Sprachmodelle zeigen Vorurteile gegen regionale deutsche Sprachvarianten

Kathrin Voigt Kommunikation und Presse Johannes Gutenberg-Universität Mainz

Wissenschaftliche Ansprechpartner:

Originalpublikation:

Erweiterte Suche

Umfang der Suche

Datum der Veröffentlichung

Hilfe

Die Suche / Erweiterte Suche im idw-Archiv

Verknüpfungen

Klammern

Wortgruppen

Auswahlkriterien

Kathrin Voigt Kommunikation und Presse
Johannes Gutenberg-Universität Mainz