CISPA-Forscherin Tẹjúmádé Àfọ̀njá hat an einer neuen internationalen Studie mitgearbeitet, die ausgehend vom Thema Essen erhebliche kulturbezogene blinde Flecken in heutigen KI-Systemen aufdeckt. In der Studie wird auch ein neuer partizipative Forschungsansatz vorgestellt, um inklusivere Datensätze zu erstellen und Verzerrungen in KI-Modellen zu bewerten. Das Paper „The World Wide Recipe: A Community-Centred Framework for Fine-Grained Data Collection and Regional Bias Operationalisation“ wurde im Juni 2025 auf der ACM Conference on Fairness, Accountability, and Transparency (FAccT ’25) in Athen vorgestellt und erhielt dort eine Best Paper Honorable Mention.
„Essen stellt einen wichtigen Zugang zur Kultur dar“, erklärt CISPA-Forscherin Tẹjúmádé Àfọ̀njá, Doktorandin im Team von CISPA-Faculty Dr. Mario Fritz. „Wir wollten untersuchen, wie generative KI die Esskulturen der Menschen in generierten Bildern darstellt.“ Dahinter stand der Wunsch mögliche kulturelle Verzerrungen von KI-Modellen zu untersuchen. „Die leitende Projektkoordinatorin unseres Papers, Siobhan Mackenzie Hall, hatte in vorherigen Studien festgestellt, dass viele Modelle in der einen oder anderen Form voreingenommen sind“, fährt Àfọ̀njá fort. „Bei der Frage, durch welche Linse wir dieses Problem betrachten könnten, erwies sich das Thema Essen als guter Zugang, da es für Menschen auf der ganzen Welt von Bedeutung ist.“ Konkret hat das Team untersucht, wie bestimmte Gerichte in KI-generierten Bildern dargestellt werden. Dafür wurde in einem ersten Schritt ein neuer Referenzdatensatz entwickelt und mit diesem in einem zweiten Schritt bestehende Modelle getestet.
Ein neuer Datensatz mit Gerichten aus der ganzen Welt
Das Autor:innenteam entschied sich dabei für einen Community-orientierten Forschungsansatz und nannten diesen World Wide Recipe. Menschen aus der ganzen Welt wurden eingeladen, ihr Wissen zur Verfügung zu stellen. „Wir wollten den Menschen Mitbestimmung darüber geben, wie ihre Kulturen in KI-Systemen repräsentiert werden“ so Àfọ̀njá. Als erste Fallstudie entstand der Datensatz World Wide Dishes (WWD): eine Sammlung von 765 Gerichten aus 106 Ländern, beschrieben in 131 lokalen Sprachen. Die einzelnen Gerichte wurden von Menschen aus den jeweiligen Communities beigesteuert, die den kulturellen, sprachlichen und kulinarischen Kontext erklärten und Fotos beisteuerten. „Wir haben WWD mit bestehenden, aus dem Internet gesammelten Datensätzen verglichen“, erklärt Àfọ̀njá. „Mehr als die Hälfte der Gerichte im Datensatz tauchen dort nicht auf, was seinen einzigartigen Charakter ausmacht.“ Der Datensatz und der gesamte Code wurden unter einer offenen Lizenz veröffentlicht, um Transparenz und Zusammenarbeit zu fördern.
Fehlrepräsentationen in bestehenden Modellen
In einem zweiten Schritt nutzten Àfọ̀njá und ihre Kolleg:innen WWD um die Bilder der darin enthaltenen Gerichte mit KI-generierten Bildern dieser Gerichte zu vergleichen. Die vergleichende Analyse wurde wiederum von Mitgliedern der Communities durchgeführt. „Wir haben festgestellt, dass viele der getesteten Modelle stereotype Ergebnisse liefern. Als wir beispielsweise ein Modell baten, ein Bild des nigerianischen Gerichts Amala zu generieren, waren die Ergebnisse oft unappetitlich oder schlicht falsch“, erklärt Àfọ̀njá. „Wenn wir dagegen ein Gericht wie einen Hotdog aus den USA anfragten, war das Ergebnis deutlich realistischer.“ Das galt für alle getesteten Modelle: DALL·E 2, DALL·E 3 und Stable Diffusion. „Die Bildqualität war im Allgemeinen schlecht und die kulturelle Darstellung oft verfälscht“, fährt sie fort. „Der Grund ist, dass viele Modelle mit Internetdaten trainiert werden. Wenn Gerichte aus bestimmten Regionen online kaum vorkommen, werden diese Regionen in der KI einfach übersehen.“
Ein globales Werkzeug braucht globale Beteiligung
Àfọ̀njá und ihre Kolleg:innen ziehen aus dieser Erkenntnis den Schluss, dass die hinter den Modellen stehenden Unternehmen mehr in Long-Tail-Training und die Datensammlung für große Sprachmodelle investieren müssen. „Wir argumentieren, dass diese Unternehmen alle Regionen weltweit gleichberechtigt berücksichtigen müssen, wenn sie Modelle bauen wollen, die dem Anspruch gerecht werden, Kultur auf der ganzen Welt zu repräsentieren“, sagt Àfọ̀njá. „Es reicht nicht aus, ein Modell im Silicon Valley oder in Deutschland zu entwickeln und zu erwarten, dass es überall funktioniert. Entscheidend ist, mehr Daten zu sammeln. Aber das muss in Zusammenarbeit mit den Communities geschehen, nicht durch bloßes Datensammeln über sie hinweg.“ Ein wichtiges Stichwort ist in diesem Zusammenhang die Datenhoheit. „Wenn man Daten von Communities einsammelt ist immer die Frage, wem sie dann gehören: Der Community oder der Organisation, die die Datensammlung finanziert hat“, so die CISPA-Forscherin.
Datensammlung und der Kampf gegen kulturelle Verzerrungen
Àfọ̀njá würde das Projekt World Wide Dishes gerne ausbauen. Doch das ist teuer. Bisher wurde WWD komplett ehrenamtlich getragen. „Keiner der Mitwirkenden wurde bezahlt“, sagt sie. „Mit ausreichender Förderung könnten wir sie jedoch bezahlen, damit sie noch mehr lokale Daten sammeln und zum Beispiel Familien nach Rezepten fragen, die online bisher nicht zu finden sind. Solche Daten sind unschätzbar wertvoll, aber aufwendig zu beschaffen.“ Weil die Methode der Datensammlung für das Projekt so wichtig war, entstand daraus eine weitere Publikation: „Wir haben ein Paper mit dem Titel ‚The Human Labour of Data Work‘ veröffentlicht, das dokumentiert, wie wir den Datensatz gesammelt haben und welche Herausforderungen es dabei gab“, so Àfọ̀njá. „Es konzentriert sich auf den menschlichen Aufwand, kulturelles Vertrauen und die Lehren, die andere aus unserer Arbeit ziehen können, wenn sie ähnliche Datensätze aufbauen wollen.“ Wer Àfọ̀njá zuhört, merkt schnell, wie sehr ihr dieses Thema am Herzen liegt und dass sie weiterhin dafür kämpfen wird, dass KI-Modelle ihre kulturelle Voreingenommenheit verlieren und dabei Community-bezogene Ansätze verfolgt werden.
Magomere, Jabez; Ishida, Shu; Afonja, Tejumade; Salama, Aya; Kochin, Daniel; Foutse, Yuehgoh; Hamzaoui, Imane; Sefala, Raesetje; Alaagib, Aisha; Dalal, Samantha; Marchegiani, Beatrice; Semenova, Elizaveta; Crais, Lauren; Mackenzie Hall, Siobhan (2025): The World Wide Recipe: A Community-Centred Framework for Fine-Grained Data Collection and Regional Bias Operationalisation, In: FAccT ’25, 23-26 June, Athens, Greece, Conference: ACM Conference on Fairness, Accountability, and Transparency
https://github.com/oxai/world-wide-dishes
Visualisierung zum Paper "The World Wide Recipe: A Community-Centred Framework for Fine-Grained Data ...
Copyright: CISPA
Criteria of this press release:
Journalists
Information technology
transregional, national
Research results
German

Visualisierung zum Paper "The World Wide Recipe: A Community-Centred Framework for Fine-Grained Data ...
Copyright: CISPA
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).