Unerkannter Dominoeffekt

19.03.2025 13:01

Unerkannter Dominoeffekt

Stefanie Terp Stabsstelle Kommunikation, Events und Alumni
Technische Universität Berlin

Wie sich fehlerhafte Vorhersagestrategien durch gängige maschinelle Lernmodelle verbreiten

KI-Modelle wie GPT, Llama, CLIP und andere generative Modelle dienen aktuell bereits häufig als Ausgangsbasis für spezialisierte KI-Modelle, die in der Wissenschaft, Industrie und nicht zuletzt in der medizinischen Diagnostik eingesetzt werden. Das wirft die berechtigte Frage nach der Erklärbarkeit dieser Modelle auf: Wie korrekt und transparent treffen die Ursprungsmodelle ihre Entscheidungen? Bei GPT und Co handelt es sich um sogenannte Foundation-Modelle, sie werden mithilfe von sogenannten unüberwachten Lernmethoden (unsupervised Learning), beispielsweise durch Selbstüberwachung, trainiert. Das Problem: Stützt sich ein Foundation-Modell bei seinen korrekten Entscheidungen – beispielsweise – auf Artefakte in den Daten, dann kann dieser sogenannte Clever-Hans-Effekt das Modell erheblich beeinträchtigen. Noch schwerwiegender: Dieser Effekt überträgt sich dann auch auf alle Modelle, die auf dem kompromittierten Foundation-Modell aufbauen. Ein Team von Wissenschaftlern des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin hat mehrere gängige Foundation-Modelle im Bereich der Bilderkennung analysiert und nachgewiesen, dass diese tatsächlich von Clever-Hans-Effekten betroffen sind. Diese fehlerhafte Vorhersagestrategie blieb bei gängigen Evaluationsbenchmarks unentdeckt und wurde jetzt erstmals nachgewiesen. Die Forschungsarbeit wurde in der renommierten Fachzeitschrift Nature Machine Intelligence veröffentlicht.

Der Clever-Hans-Effekt im maschinellen Lernen beschreibt, wenn ein KI-Modell richtige Vorhersagen trifft, aber für diese Entscheidung irrelevante oder unerwartete Muster nutzt – ähnlich wie das berühmte Pferd Clever Hans, das nicht rechnen konnte, aber erfolgreiche entsprechende Signale seines Besitzers las. Ein Beispiel für den Clever-Hans Effekt wäre ein Bildklassifikationsmodell, das zum Beispiel Pferde erkennen soll, seine Entscheidung aber schwerpunktmäßig auf der Existenz eines unbemerkten Schriftzuges (Pferdebilder) am Rand der Bilder trifft.
Für die neue Publikation demonstrierten die Forscher die Existenz der Clever-Hans-Effekte beispielsweise im Kontext medizinischer Daten: Das Foundation-Modell PubMedCLIP, das für medizinische Bildanalyse entwickelt wurde, erkennt zwar erfolgreich zwei ähnliche Lungenröntgenbilder als ähnlich, trifft seine Entscheidung jedoch hauptsächlich aufgrund irreführender Text-Anmerkungen auf beiden Röntgenbildern und nicht aufgrund von ähnlichen Pixelverteilungen in den Lungenregionen. Dies kann zu erheblichen Problemen bei realen diagnostischen Aufgaben führen. Die fehlerhafte Strategie des Modells, sich auf Text-Anmerkungen statt auf Bildinformationen zu stützen, ist jedoch ein direktes „Erbe“ des Ausgangs-Modell CLIP. CLIP ist ein weitverbreitetes Foundation-Modell für Bilddatenanalyse, das auf unüberwachtem Lernen beruht. Da CLIP, genau wie viele weitere bekannte Foundation-Modelle, die auf unüberwachtem Lernen beruhen, als Basis für diverse neue Anwendungen dient, werden diese Modelle zu einer zentralen potenziellen Fehlerquelle. „Wir halten es für essenziell, das unüberwachte Lernparadigma, auf dem diese Modelle basieren, zu überdenken. Nur so können wir sicherstellen, dass die darauf aufbauenden spezialisierten Modelle zuverlässig sind und nicht mit Clever-Hans-Effekten kontaminiert werden“, betont BIFOLD-Wissenschaftler Prof. Dr. Grégoire Montavon.

Erklärbare KI deckt Clever-Hans-Effekte auf

Entdeckt haben die Wissenschaftler diesen „Domino-Effekt“ mithilfe von modernen Methoden der Erklärbaren KI auf der Basis von LRP (Layer-wise Relevance Propagation). „Besonders nützlich ist hierbei die Erklärbare-KI-Methode BiLRP, die nicht nur aufzeigt, welche Pixel das Modell betrachtet, sondern auch, wie diese Pixel miteinander interagieren, um zwei Bilder als ähnlich oder unähnlich erscheinen zu lassen“, erklärt Gregoire Montavon. So fanden sie beispielsweise heraus, dass das CLIP-Modell bestimmte Merkmale wie Text oder Gesichter übermäßig stark berücksichtigt. Zudem konnten sie in einigen Fällen ebenfalls zeigen, dass die Erklärbare KI auch genutzt werden kann, um diese Fehler aus dem Basis-Foundation-Modell zu entfernen.

Unüberwachtes Lernen existierte bereits bevor Foundation-Modelle aufkamen und wurde auf nahezu jede Art von Datensatz angewendet, für den keine Labels verfügbar sind. Klassische Probleme, bei denen unüberwachtes Lernen zum Einsatz kam waren zum Beispiel das Clustern von Daten oder das Erkennen von Anomalien in einem Datensatz – ein häufig genutztes Verfahren der Qualitätssicherung in der industriellen Fertigung. Dabei entscheidet eine KI anhand von Bildern eines industriell gefertigten Produkts, ob ein Herstellungsfehler aufgetreten ist oder nicht. In der Publikation zeigen die BIFOLD-Forscher, dass auch diese Modelle mit Clever-Hans-Strategien arbeiten.

„Das unüberwachte Lernen ist ein zentrales Merkmal der großen Foundation-Modelle. Das wir in diesen Modellen verbreitet Clever-Hans-Effekte nachweisen konnten, ist ein Grund zur Besorgnis. Vor allem weil diese Foundation-Modelle die Basis vieler nachgelagerter spezialisierter KI-Modelle sind und die Clever-Hans-Effekte sich so immer weiterverbreiten. Unsere jüngsten Entwicklungen der Erklärbaren KI zeigen erstmals einen effektiven Weg, um diesen Domino-Effekt in Foundation-Modellen zu erkennen und zu beheben“, erläutert BIFOLD Co-Direktor Klaus-Robert Müller.

Weiterführende Informationen:

Zur Publikation https://www.nature.com/articles/s42256-025-01000-2

Kontakte:

Prof. Dr. Klaus-Robert Müller und Prof. Dr. Grégoire Montavon
TU Berlin/BIFOLD
E-Mail: klaus-robert.mueller@tu-berlin.de, gregoire.montavon@tu-berlin.de

Bilder

Merkmale dieser Pressemitteilung:
Journalisten
Informationstechnik
überregional
Forschungs- / Wissenstransfer, Forschungsergebnisse
Deutsch

idw – Informationsdienst Wissenschaft

idw-News App:

Unerkannter Dominoeffekt

Stefanie Terp Stabsstelle Kommunikation, Events und Alumni
Technische Universität Berlin

idw-News App:

Unerkannter Dominoeffekt

Stefanie Terp Stabsstelle Kommunikation, Events und Alumni Technische Universität Berlin

Erweiterte Suche

Umfang der Suche

Datum der Veröffentlichung

Hilfe

Die Suche / Erweiterte Suche im idw-Archiv

Verknüpfungen

Klammern

Wortgruppen

Auswahlkriterien

Stefanie Terp Stabsstelle Kommunikation, Events und Alumni
Technische Universität Berlin