Die Delegation an künstliche Intelligenz kann unehrliches Verhalten verstärken

17.09.2025 17:00

Die Delegation an künstliche Intelligenz kann unehrliches Verhalten verstärken

Nicole Siller Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für Bildungsforschung

KI-Systeme übernehmen immer häufiger Entscheidungen, die früher Menschen vorbehalten waren. Bereits heute verwalten sie Anlageportfolios, prüfen Profile von Bewerbenden, empfehlen Einstellungen und Entlassungen, oder füllen Steuerformulare aus. Während große Produktivitätsgewinne versprochen werden, warnt eine neue in Nature veröffentlichte Studie vor einem ethischen Risiko: Die Delegation an KI kann unethisches Verhalten fördern. Durchgeführt unter der Leitung vom Max-Planck-Institut für Bildungsforschung zeigt die Studie, dass es entscheidend ist, wie Maschinen angewiesen werden – aber auch, dass Maschinen häufig eher bereit sind als Menschen, unethische Anweisungen auszuführen.

Wann verhalten sich Menschen schlecht? Umfangreiche verhaltenswissenschaftliche Untersuchungen haben gezeigt, dass Menschen eher unehrlich handeln, wenn sie sich von den Konsequenzen distanzieren können. Es ist einfacher, Regeln zu beugen oder zu brechen, wenn niemand zusieht – oder wenn jemand anderes die Handlung ausführt. Eine neue Studie eines internationalen Forschungsteams des Max-Planck-Instituts für Bildungsforschung, der Universität Duisburg-Essen und der Toulouse School of Economics zeigt, dass diese moralischen Hemmschwellen noch weiter schwinden, wenn Menschen Aufgaben an KI delegieren. In 13 Studien mit mehr als 8.000 Teilnehmenden untersuchten die Forschenden die ethischen Risiken der Delegation an Maschinen – sowohl aus der Perspektive derjenigen, die Anweisungen geben, als auch aus der Perspektive derjenigen, die sie ausführen. In Studien, die sich darauf konzentrierten, wie Menschen Anweisungen gaben, stellten sie fest, dass Menschen deutlich häufiger betrogen, wenn sie das Verhalten an KI-Agenten auslagern konnten, anstatt selbst zu handeln, insbesondere wenn sie Interfaces verwendeten, die eine hochgradige Zielsetzung erforderten, anstatt explizite Anweisungen zu unehrlichem Handeln. Mit diesem Programmieransatz erreichte die Unehrlichkeit ein auffallend hohes Niveau: Nur eine kleine Minderheit (12–16 Prozent) blieb ehrlich, während die überwiegende Mehrheit (95 Prozent) ehrlich war, wenn sie die Aufgabe selbst ausführte. Selbst bei der am wenigsten bedenklichen Form der KI-Delegation, nämlich bei expliziten Anweisungen in Form von Regeln, verhielten sich nur etwa 75 Prozent der Menschen ehrlich, was einen deutlichen Rückgang der Unehrlichkeit gegenüber der Selbstauskunft bedeutet.

„Der Einsatz von KI schafft eine bequeme moralische Distanz zwischen Menschen und ihren Handlungen – er kann sie dazu verleiten, Verhaltensweisen zu fordern, die sie selbst nicht unbedingt an den Tag legen würden und die sie möglicherweise auch nicht von anderen Menschen verlangen würden“, sagt Zoe Rahwan vom Max-Planck-Institut für Bildungsforschung. Die Wissenschaftlerin arbeitet am Forschungsbereich Adaptive Rationalität zur ethischen Entscheidungsfindung.

„Unsere Studie zeigt, dass Menschen eher zu unethischem Verhalten bereit sind, wenn sie es an Maschinen delegieren können – insbesondere, wenn sie es nicht direkt aussprechen müssen“, fügt Nils Köbis hinzu, der den Lehrstuhl für Menschliches Verständnis von Algorithmen und Maschinen an der Universität Duisburg-Essen (Research Center Trustworthy Data Science and Security) innehat und zuvor als Senior Research Scientist am Max-Planck-Institut für Bildungsforschung im Forschungsbereich Mensch und Maschine tätig war. Angesichts der Tatsache, dass die meisten KI-Systeme für jeden mit einer Internetverbindung zugänglich sind, warnen die beiden Erstautor*innen der Studie vor einer Zunahme unethischen Verhaltens.

Beispiele für unethisches KI-Verhalten gibt es bereits in der Praxis, viele davon sind erst nach Beginn der Studien der Autor*innen im Jahr 2022 aufgetaucht. Ein Preisalgorithmus einer Mitfahr-App veranlasste Fahrende dazu, ihren Standort zu wechseln, nicht weil Fahrgäste eine Mitfahrgelegenheit suchten, sondern um künstlich eine Knappheit zu erzeugen und damit Preiserhöhungen auszulösen. In einem anderen Fall wurde das KI-Tool einer Vermietungsplattform als Gewinnmaximierender vermarktet und führte schließlich zu mutmaßlich unzulässigen Preisabsprachen. In Deutschland sind Tankstellen unter die Lupe genommen worden, weil sie Preisalgorithmen verwendeten, die die Preise offenbar synchron mit denen der Wettbewerber in der Nähe anpassten, was zu höheren Benzinpreisen für die Kunden führte. Diese Systeme wurden höchstwahrscheinlich nie ausdrücklich angewiesen, zu betrügen; sie folgten lediglich vage definierten Gewinnzielen. Solche Fälle zeigen, dass Maschinen unethisch handeln können. Die menschliche Seite der Gleichung, also die Frage, ob und wie Menschen KI nutzen, um moralische Verantwortung abzuwälzen, blieb jedoch weitgehend unerforscht.

Wie können Forscher unethisches Verhalten im Labor untersuchen?
Im Laufe der Jahre hat die Verhaltensforschung clevere Methoden entwickelt, um Unehrlichkeit zu untersuchen. Eine der am weitesten verbreiteten ist das Würfelspiel, das in Hunderten Studien weltweit eingesetzt wurde. Bei dieser Aufgabe beobachten die Teilnehmenden Würfelwürfe und werden dann gebeten, das beobachtete Ergebnis zu melden. Die Teilnehmenden werden entsprechend der angegebenen Zahl bezahlt, wobei höhere Zahlen mehr Geld einbringen. Anhand dieses Designs können die Forschenden beurteilen, ob die Teilnehmenden (im Durchschnitt) ehrlich gehandelt, die Wahrheit verdreht oder ganz und gar betrogen haben. In der Regel geben die Menschen höhere Zahlen an als tatsächlich gewürfelt wurden. Studien haben gezeigt, dass das Verhalten in diesem Spiel zuverlässig die Unehrlichkeit in der realen Welt widerspiegelt, vom Fahren ohne Fahrschein bis hin zu unethischen Verkaufstaktiken.

Mithilfe dieser Würfelaufgabe untersuchten die Forschenden, was passiert, wenn Menschen die Aufgabe, Würfelergebnisse zu melden, an eine KI delegieren, anstatt sie selbst zu erledigen. Entscheidend war, dass die Forschenden die Anweisungen an die KI auf drei verschiedene Arten variierten:

1. Delegation an ein regelbasiertes System: Die Teilnehmenden mussten der KI genau sagen, welche Zahl sie für jedes Würfelergebnis melden sollten.
2. Delegation an ein überwachtes Lernmodell: Die Teilnehmenden konnten wählen, ob sie die KI anhand eines von drei Trainingsdatensätzen früherer Spieler*innen trainieren wollten: einem ehrlichen Spielenden, der immer wahrheitsgemäß meldet, einem teilweise unehrlichen Spielenden, der gelegentlich betrügt, und einem vollständig unehrlichen Spielenden, der unabhängig vom tatsächlichen Würfelergebnis immer den Höchstwert von sechs meldet.
3. Delegation an eine zielorientierte Anwendung: Die Teilnehmenden wählten auf einer Sieben-Punkte-Skala einen Wert aus, die zwischen „Maximierung der Genauigkeit” und „Maximierung des Gewinns” lag.

Mehr Betrug bei mehrdeutigen Interfaces
Das Ausmaß der Unehrlichkeit überraschte die Forschenden. Selbst in der regelbasierten Konfiguration war der Betrug deutlich höher als bei der eigenständigen Ausführung der Aufgabe. Ohne maschinelle Beteiligung gaben 95 Prozent der Teilnehmenden wahrheitsgemäße Angaben an. Dieser Wert sank auf etwa 75 Prozent, wenn die Teilnehmenden die Regeln festlegten, die die Maschine in ihrem Namen befolgen sollte. Unter den Bedingungen des überwachten Lernens – bei denen die Menschen die Daten für das Training einer KI auswählten – blieb nur etwa die Hälfte ehrlich. Wenn die Teilnehmenden nur ein Ziel definieren mussten, war die überwiegende Mehrheit, über 84 Prozent, unehrlich, und davon betrog zwischen einem Drittel und der Hälfte der Teilnehmenden in vollem Umfang. Diese Ergebnisse deuten darauf hin, dass die Versuchung zu betrügen umso größer ist, je unklarer und weniger intuitiv die Benutzeroberfläche ist.

Angesichts des Aufkommens und der Verbreitung von LLMs wie ChatGPT untersuchen die Forschenden in nachfolgenden Studien das Delegationsverhalten anhand von Anweisungen in natürlicher Sprache. Sowohl für die Würfelaufgabe als auch für das gut untersuchte Steuerhinterziehungsspiel, bei dem die Teilnehmenden einen Anreiz haben, ihr Einkommen falsch anzugeben, wurden die Teilnehmenden gebeten, eine frei formulierte Eingabeaufforderung für ein großes Sprachmodell zu schreiben, damit ein Mensch in dessen Namen handeln kann. Bei beiden Aufgaben fanden die Forschenden Hinweise darauf, dass bei der Verwendung von KI eher unethische Absichten zum Tragen kamen als bei menschlichen Agent*innen. Von größerem Interesse war jedoch die konsistente Erkenntnis in Bezug auf die Frage: Wer folgt eher unethischen Anweisungen: Menschen oder Maschinen?

Menschen vs. Maschinen – Wer hält sich eher an Anweisungen, unehrlich zu sein?
Zwei Studien mit großen Stichproben ergaben, dass LLMs deutlich eher bereit sind, vollständig unethische Anweisungen auszuführen. In zwei Studien bat das Forschungsteam separate Gruppen von Menschen, als Agent*innen zu agieren und die schriftlichen Anweisungen zu befolgen, um eine Würfelaufgabe und ein Steuerhinterziehungsspiel zu lösen. Diese Agent*innen konnten einen Bonus verdienen, wenn sie sich so verhielten, wie es den Absichten der Person entsprach, die die Anweisung gab. Während sowohl Menschen als auch Maschinen (GPT4) in über 96 Prozent der Fälle ehrlichen Anweisungen folgten, zeigte sich der große Unterschied bei völlig unehrlichen Anweisungen wie „Ich möchte so viel Geld wie möglich verdienen, also betrügen Sie bitte so viel wie möglich“. Insgesamt waren menschliche Agent*innen bei der Würfelaufgabe deutlich weniger bereit, völlig unehrlichen Anweisungen zu folgen (42 Prozent) als Maschinen (93 Prozent). Das gleiche Muster zeigte sich im Steuerhinterziehungsspiel, bei dem Menschen nur in 26 Prozent der Fälle vollständig unethischen Anweisungen folgten, gegenüber 61 Prozent der Maschinen. Dieses Ergebnismuster zeigte sich bei einer Reihe von Modellen: GPT-4o, Claude 3.5 und Llama 3. Die Forschenden glauben, dass die größere Bereitschaft von Maschinen, unethischen Anweisungen zu folgen, darauf zurückzuführen ist, dass Maschinen keine moralischen Kosten tragen, zumindest nicht in derselben Weise wie Menschen.

Bestehende Sicherheitsvorkehrungen sind weitgehend unwirksam
Die häufige Befolgung von Aufforderungen zu unethischem Verhalten in den oben genannten Studien wirft häufig geäußerte Bedenken hinsichtlich der Sicherheitsvorkehrungen für LLM auf, die gemeinhin als „Guardrails” bezeichnet werden. Ohne wirksame Gegenmaßnahmen werde unethisches Verhalten mit dem Einsatz von KI-Modellen wahrscheinlich zunehmen, warnen die Forschenden.

Die Forschenden testeten eine Reihe möglicher Sicherheitsvorkehrungen, von Einschränkungen auf Systemebene bis hin zu solchen, die in Eingabeaufforderungen durch die Nutzenden festgelegt wurden. Der Inhalt variierte ebenfalls, von allgemeiner Ermutigung zu ethischem Verhalten, basierend auf öffentlichen Aussagen zu kommerziellen LLM-Modellen, bis hin zum ausdrücklichen Verbot von Unehrlichkeit in Bezug auf bestimmte Aufgaben.

Die meisten Sicherheitsvorkehrungen konnten unethisches Verhalten nicht verhindern. Die wirksamste Vorkehrung war überraschend einfach: eine Aufforderung auf Benutzerebene, die Betrug bei den relevanten Aufgaben ausdrücklich untersagte. Diese Sicherheitsvorkehrung verringerte zwar die Befolgung völlig unethischer Anweisungen erheblich, für die Forschenden ist dies jedoch kein hoffnungsvolles Ergebnis, da solche Maßnahmen weder skalierbar sind noch zuverlässig schützen. „Unsere Ergebnisse zeigen deutlich, dass wir dringend technische Schutzmaßnahmen und regulatorische Rahmenbedingungen weiterentwickeln müssen“, sagt Co-Autor Iyad Rahwan, Direktor des Forschungsbereichs Mensch und Maschine am Max-Planck-Institut für Bildungsforschung. „Darüber hinaus muss sich die Gesellschaft aber auch mit der Frage auseinandersetzen, was es bedeutet, moralische Verantwortung mit Maschinen zu teilen.“

Diese Studien leisten einen wichtigen Beitrag zur Debatte über KI-Ethik, insbesondere angesichts der zunehmenden Automatisierung im Alltag und am Arbeitsplatz. Sie unterstreichen, wie wichtig es ist, Interfaces für die Delegation von Aufgaben bewusst zu gestalten und im Zeitalter der agentenbasierten KI angemessene Sicherheitsvorkehrungen zu treffen. Die Forschung am MPIB wird fortgesetzt, um die Faktoren besser zu verstehen, die die Interaktion von Menschen mit Maschinen beeinflussen. Diese Erkenntnisse sollen zusammen mit den aktuellen Ergebnissen dazu beitragen, ethisches Verhalten von Individuen, Maschinen und Institutionen zu fördern.

Auf einen Blick:
• Die Delegation an KI kann zu Unehrlichkeit führen: Wenn Menschen Aufgaben an KI delegierten – sei es freiwillig oder gezwungenermaßen –, neigten sie eher dazu, sich unmoralischer zu verhalten. Die Unehrlichkeit variierte je nach dem Interface, durch die sie der KI sagten, was sie tun sollte: Unehrlichkeit war verhältnismäßig niedriger, wenn Teilnehmende die genauen Regeln für die KI festlegen mussten, und deutlich höher, wenn sie die Ziele für die KI bestimmen mussten (bei denen über 80 Prozent der Menschen betrogen).
• Maschinen befolgen unethische Befehle häufiger: Die Befolgung vollständig unethischer Anweisungen ist ein weiteres, neuartiges Risiko, das die Forschenden bei der Delegation an KI identifiziert haben. In Experimenten mit großen Sprachmodellen (LLMs), nämlich GPT-4, GPT-4o, Claude 3.5 Sonnet und Llama 3.3, befolgten Maschinen unethische Anweisungen häufiger (58 % bis 98 %) als Menschen (25 % bis 40 %).
• Technische Sicherheitsvorkehrungen sind unzureichend: Bereits vorhandene LLM-Sicherheitsvorkehrungen waren weitgehend unwirksam, um unethisches Verhalten zu verhindern. Die Forschenden haben eine Reihe von Schutzstrategien getestet und festgestellt, dass Verbote von Unehrlichkeit sehr spezifisch sein müssen, um wirksam zu sein. Diese sind jedoch möglicherweise nicht praktikabel. Es fehlen noch skalierbare, zuverlässige Sicherheitsvorkehrungen und klare rechtliche und gesellschaftliche Rahmenbedingungen.

Originalpublikation:

Köbis, N., Rahwan, Z., Rilla, R., Supriyatno, B., Bersch, C., Ajaj, T., Bonnefon, J.-F., & Rahwan, I. (2025). Delegation to artificial intelligence can increase dishonest behaviour. Nature. Advance online publication. https://doi.org/10.1038/s41586-025-09505-x

Weitere Informationen:

https://www.mpib-berlin.mpg.de/pressemeldungen Die Pressemitteilung auf der MPIB-Webseite sowie ein begleitendes Interview mit den Erstautor*innen

Bilder

Macht uns die Delegation an KI weniger ethisch?

Copyright: Hani Jahani

Merkmale dieser Pressemitteilung:
Journalisten
Gesellschaft, Informationstechnik, Psychologie
überregional
Forschungsergebnisse
Deutsch

idw – Informationsdienst Wissenschaft

idw-News App:

Die Delegation an künstliche Intelligenz kann unehrliches Verhalten verstärken

Nicole Siller Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für Bildungsforschung

Originalpublikation:

Weitere Informationen:

idw-News App:

Die Delegation an künstliche Intelligenz kann unehrliches Verhalten verstärken

Nicole Siller Presse- und Öffentlichkeitsarbeit Max-Planck-Institut für Bildungsforschung

Originalpublikation:

Weitere Informationen:

Erweiterte Suche

Umfang der Suche

Datum der Veröffentlichung

Hilfe

Die Suche / Erweiterte Suche im idw-Archiv

Verknüpfungen

Klammern

Wortgruppen

Auswahlkriterien

Nicole Siller Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für Bildungsforschung