Angesichts der jüngsten Fortschritte auf dem Gebiet der Künstlichen Intelligenz (KI) stellt sich zunehmend die Frage, wie sehr uns synthetisch erzeugte Stimmen täuschen können. Sind KI-Stimmen überhaupt noch von menschlichen Stimmen zu unterscheiden – und wie attraktiv klingen sie? Ein Team aus Forscherinnen des Max-Planck-Instituts für empirische Ästhetik (MPIEA) in Frankfurt am Main und der Universität für angewandte Kunst Wien, Österreich, hat festgestellt, dass synthetische Stimmen oft für menschliche gehalten, im Durchschnitt aber weniger attraktiv wahrgenommen werden. Die Ergebnisse der Studie sind kürzlich im Fachmagazin Computers in Human Behavior: Artificial Humans erschienen.
Insgesamt 75 Personen nahmen an der Online-Studie teil. Die Teilnehmer:innen hörten verschiedene Versionen eines Satzes, der von insgesamt acht Stimmen vorgetragen wurde. Vier davon waren menschliche Stimmen, die anderen vier künstlich generierte Text-to-Speech-(TTS)-Stimmen. Jede Stimme präsentierte den Satz viermal in unterschiedlicher emotionaler Färbung: neutral, fröhlich, traurig und wütend. Die Teilnehmer:innen beurteilten die Attraktivität der Stimmen und gaben an, wie gerne sie mit ihnen interagieren würden. Darüber hinaus beschrieben sie, welche Emotion sie jeweils wahrgenommen hatten.
Erstautorin Camila Bruder vom MPIEA berichtet: „Fröhliche Stimmen wurden insgesamt positiver bewertet als solche, die traurig oder wütend klangen – egal, ob es sich dabei um menschliche oder künstlich erzeugte Stimmen handelte. Das deutet darauf hin, dass die wahrgenommene Emotion die Bewertung aller Stimmen in gleicher Weise beeinflusst beziehungsweise dass KI-Stimmen ähnlich wie menschliche Stimmen behandelt werden.“
Zudem sollten die Teilnehmer:innen angeben, ob sie die jeweilige Stimme für menschlich oder KI-generiert hielten. Menschliche Stimmen identifizierten die Zuhörer:innen zu 86 Prozent korrekt, KI-Stimmen hingegen nur zu 55 Prozent. Am deutlichsten zeigten sich Fehleinschätzungen bei KI-Stimmen, die als wütend wahrgenommen wurden. Dies könnte darauf zurückzuführen sein, dass die Teilnehmer:innen möglicherweise nach wie vor eher „emotionslose“ synthetische Stimmen erwarteten.
Darüber hinaus zeigte sich, dass auch das Alter eine Rolle bei der Einschätzung spielte: Ältere Teilnehmer:innen hatten größere Schwierigkeiten, zwischen menschlichen und KI-generierten Stimmen zu unterscheiden. Die Tatsache, dass die Mehrheit der Teilnehmer:innen von den TTS-Stimmen „getäuscht” wurden, deutet auf erhebliche Fortschritte in der Ausdruckskraft und Natürlichkeit dieser Systeme hin.
Seniorautorin Pauline Larrouy-Maestri resümiert: „Im Gesamtergebnis wurden menschliche Stimmen immer noch als attraktiver und ansprechender empfunden als synthetische. Allerdings gab es in der Beurteilung deutliche individuelle Unterschiede. Dieses Ergebnis unterstreicht die Notwendigkeit weiterer Studien mit differenzierteren Bewertungsmethoden und einer größeren Vielfalt an Zuhörer:innen. Nur so können wir die menschliche Stimmwahrnehmung in all ihrer Komplexität erfassen.“
Max-Planck-Institut für empirische Ästhetik
Dr. Camila Bruder: camila.bruder@ae.mpg.de
Pauline Larrouy-Maestri, PhD: plm@ae.mpg.de
Bruder, C., Breda, P., & Larrouy-Maestri, P. (2025). Attractive Synthetic Voices. Computers in Human Behavior: Artificial Humans, 6, Article 100211. https://doi.org/10.1016/j.chbah.2025.100211
KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attrakti ...
Copyright: (Illustration: MPIEA / L. Bittner)
Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler, jedermann
Informationstechnik, Medien- und Kommunikationswissenschaften, Psychologie, Sprache / Literatur
überregional
Forschungsergebnisse, Wissenschaftliche Publikationen
Deutsch

KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attrakti ...
Copyright: (Illustration: MPIEA / L. Bittner)
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).