idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
12.11.2025 16:57

KI-Sprachmodelle zeigen Vorurteile gegen regionale deutsche Sprachvarianten

Kathrin Voigt Kommunikation und Presse
Johannes Gutenberg-Universität Mainz

    Neue Studie zur Reaktion von Künstlicher Intelligenz auf Dialektäußerungen

    Große Sprachmodelle wie GPT-5 oder Llama bewerten Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter. Das zeigt eine aktuelle Studie, bei der Prof. Dr. Katharina von der Wense und Minh Duc Bui von der Johannes Gutenberg-Universität Mainz (JGU) eine führende Rolle übernahmen. Ihre Ergebnisse wurden kürzlich im Rahmen der diesjährigen Conference on Empirical Methods in Natural Language Processing (EMNLP), einer bedeutenden Konferenz für Computerlinguistik, veröffentlicht. Gemeinsam mit Forschenden der Universitäten Hamburg und Washington hatten Bui und von der Wense untersucht, wie Künstliche Intelligenz (KI) auf Dialektäußerungen reagiert. Das Ergebnis: Sämtliche getesteten Modelle übernahmen stereotype Denkmuster aus der Gesellschaft.

    "Dialekte sind zentraler Teil kultureller Identität", sagt Minh Duc Bui, Promovend in der Arbeitsgruppe "Natural Language Processing" (NLP) von Prof. Dr. Katharina von der Wense am Institut für Informatik der JGU. "Unsere Analysen legen allerdings nahe, dass Sprachmodelle Dialekte mit negativen Eigenschaften verknüpfen – und damit problematische gesellschaftliche Vorurteile weitertragen."

    Auf Basis linguistischer Datenbanken mit orthografischen und phonetischen Varianten deutscher Dialekte hatte das Team zunächst sieben Dialektvarianten ins Standarddeutsche übertragen. Mit diesem parallelen Datensatz konnten sie systematisch vergleichen, wie Sprachmodelle denselben Inhalt – einmal in Standarddeutsch geschrieben, einmal im Dialekt – bewerten.

    Voreingenommener, wenn Dialekte benannt werden

    Untersucht wurden zehn große Sprachmodelle – von Open-Source-Modellen wie Gemma und Qwen bis zum kommerziellen System GPT-5. Diesen wurden schriftliche Texte in Standarddeutsch oder in einem von sieben Dialekten vorgelegt: Plattdeutsch, Bairisch, Nordfriesisch, Saterfriesisch, Ripuarisch – eine Dialektgruppe, zu der das Kölsche gehört –, Alemannisch sowie rheinfränkische Dialekte, zu denen auch Pfälzisch und Hessisch zählen.

    Zum einen sollten die Systeme den fiktiven Sprechenden bestimmte Eigenschaften zuordnen – zum Beispiel "gebildet" oder "ungebildet". Zum anderen sollten sie zwischen zwei fiktiven Personen wählen – etwa bei einer Job-Entscheidung, der Zuordnung zu einem Workshop oder eines Wohnorts. Das Ergebnis: In nahezu allen Tests belegten die Modelle Dialektsprecherinnen und -sprecher mit Stereotypen. Während sie Standarddeutsch-Sprechende häufiger als "gebildet", "professionell" oder "vertrauenswürdig" beschrieben, bezeichneten sie Dialektsprechende als "ländlich", "traditionell" oder "ungebildet". Und selbst das positive Attribut "freundlich", das die soziolinguistische Forschung bislang eher Dialektsprechenden zugeschrieben hat, ordneten die KI-Modelle eher Standarddeutsch-Sprechenden zu.

    Größere Modelle – mehr Vorurteile

    Auch bei Entscheidungstests wurden Texte in regionalen Sprachvarianten systematisch benachteiligt – und zum Beispiel einem Beruf auf dem Bauernhof, einem Workshop gegen aufbrausenden Charakter oder einem Wohnort mit "offenen Feldern" zugeordnet. "Solche Zuschreibungen spiegeln gesellschaftliche Vorannahmen, die in den Trainingsdaten vieler Sprachmodelle verankert sind", erklärt Prof. Dr. Katharina von der Wense, die an der JGU im Bereich Sprachverarbeitung forscht. "Das ist problematisch, weil KI-Systeme zunehmend in Bildungskontexten oder etwa Bewerbungsverfahren eingesetzt werden, in denen ihnen Sprache als Indikator für Kompetenz oder Glaubwürdigkeit dient."

    Besonders stark zeigte sich der Effekt, wenn das System im Versuch ausdrücklich auf den Dialekt hingewiesen wurde. Überraschend war zudem, dass größere Modelle innerhalb derselben Modellfamilie sogar stärkere Vorurteile zeigten. "Größere Modelle führen also nicht automatisch zu mehr Fairness", so Minh Duc Bui. "Stattdessen lernen sie gesellschaftliche Stereotype sogar mit höherer Präzision."

    Ähnliche Muster im Englischen

    Selbst im Vergleich mit künstlich verrauschten Standardtexten blieben die negativen Bewertungen gegenüber Dialektvarianten bestehen. Damit zeigten die Forschenden, dass die Diskriminierung nicht auf ungewohnte Schreibweisen zurückzuführen ist.

    Die deutschen Dialekte stehen dabei modellhaft für ein universelles Problem. "Unsere Ergebnisse zeigen, wie Sprachmodelle weltweit mit regionaler oder sozialer Sprachvielfalt umgehen", erklärt Bui. "Denn Vorurteile gegenüber regionalen oder nicht standardisierten Sprachvarianten wurden auch für andere Sprachen, etwa für das afroamerikanische Englisch, beschrieben."

    Künftige Forschung müsse zeigen, wie sich mögliche Vorurteile der KI gegenüber verschiedenen Dialekten unterscheiden und wie Sprachmodelle so konzipiert und trainiert werden können, dass sie sprachliche Vielfalt fairer abbilden. "Dialekte sind ein wichtiger Bestandteil sozialer Identität", betont von der Wense. "Dass Maschinen diese Vielfalt nicht nur erkennen, sondern auch respektieren, ist eine Frage technischer Fairness – und gesellschaftlicher Verantwortung."

    Derzeit arbeiten die Mainzer Forschenden an einer neuen Studie zum Umgang großer Sprachmodelle mit Dialekten im Mainzer Raum.


    Weiterführende Links:
    https://nala-cub.github.io/ – Arbeitsgruppe „Natural Language Processing” (NALA) von Prof. Dr. Katharina Wense
    https://www.informatik.uni-mainz.de/ – Institut für Informatik an der JGU
    https://minhducbui.github.io – Website von Minh Duc Bui


    Wissenschaftliche Ansprechpartner:

    Minh Duc Bui
    Natural Language Processing
    Institut für Informatik
    Johannes Gutenberg-Universität Mainz
    55099 Mainz
    E-Mail: minhducbui@uni-mainz.de
    https://www.datamining.informatik.uni-mainz.de/minh-duc-bui/


    Originalpublikation:

    M. D. Bui, K. von der Wense et al., Large Language Models Discriminate Against Speakers of German Dialects, Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4. November 2025,
    DOI: 10.18653/v1/2025.emnlp-main.415
    https://aclanthology.org/2025.emnlp-main.415/


    Bilder

    Große Sprachmodelle bewerten Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter
    Große Sprachmodelle bewerten Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter

    Copyright: Abb./©: AG von der Wense; KI-unterstützt


    Merkmale dieser Pressemitteilung:
    Journalisten, jedermann
    Gesellschaft, Informationstechnik, Kulturwissenschaften, Medien- und Kommunikationswissenschaften, Sprache / Literatur
    überregional
    Forschungsergebnisse, Wissenschaftliche Publikationen
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).