idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
23.10.2025 09:06

Wie attraktiv klingen KI-Stimmen?

Ina Wittmann Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für empirische Ästhetik

    Angesichts der jüngsten Fortschritte auf dem Gebiet der Künstlichen Intelligenz (KI) stellt sich zunehmend die Frage, wie sehr uns synthetisch erzeugte Stimmen täuschen können. Sind KI-Stimmen überhaupt noch von menschlichen Stimmen zu unterscheiden – und wie attraktiv klingen sie? Ein Team aus Forscherinnen des Max-Planck-Instituts für empirische Ästhetik (MPIEA) in Frankfurt am Main und der Universität für angewandte Kunst Wien, Österreich, hat festgestellt, dass synthetische Stimmen oft für menschliche gehalten, im Durchschnitt aber weniger attraktiv wahrgenommen werden. Die Ergebnisse der Studie sind kürzlich im Fachmagazin Computers in Human Behavior: Artificial Humans erschienen.

    Insgesamt 75 Personen nahmen an der Online-Studie teil. Die Teilnehmer:innen hörten verschiedene Versionen eines Satzes, der von insgesamt acht Stimmen vorgetragen wurde. Vier davon waren menschliche Stimmen, die anderen vier künstlich generierte Text-to-Speech-(TTS)-Stimmen. Jede Stimme präsentierte den Satz viermal in unterschiedlicher emotionaler Färbung: neutral, fröhlich, traurig und wütend. Die Teilnehmer:innen beurteilten die Attraktivität der Stimmen und gaben an, wie gerne sie mit ihnen interagieren würden. Darüber hinaus beschrieben sie, welche Emotion sie jeweils wahrgenommen hatten.

    Erstautorin Camila Bruder vom MPIEA berichtet: „Fröhliche Stimmen wurden insgesamt positiver bewertet als solche, die traurig oder wütend klangen – egal, ob es sich dabei um menschliche oder künstlich erzeugte Stimmen handelte. Das deutet darauf hin, dass die wahrgenommene Emotion die Bewertung aller Stimmen in gleicher Weise beeinflusst beziehungsweise dass KI-Stimmen ähnlich wie menschliche Stimmen behandelt werden.“

    Zudem sollten die Teilnehmer:innen angeben, ob sie die jeweilige Stimme für menschlich oder KI-generiert hielten. Menschliche Stimmen identifizierten die Zuhörer:innen zu 86 Prozent korrekt, KI-Stimmen hingegen nur zu 55 Prozent. Am deutlichsten zeigten sich Fehleinschätzungen bei KI-Stimmen, die als wütend wahrgenommen wurden. Dies könnte darauf zurückzuführen sein, dass die Teilnehmer:innen möglicherweise nach wie vor eher „emotionslose“ synthetische Stimmen erwarteten.

    Darüber hinaus zeigte sich, dass auch das Alter eine Rolle bei der Einschätzung spielte: Ältere Teilnehmer:innen hatten größere Schwierigkeiten, zwischen menschlichen und KI-generierten Stimmen zu unterscheiden. Die Tatsache, dass die Mehrheit der Teilnehmer:innen von den TTS-Stimmen „getäuscht” wurden, deutet auf erhebliche Fortschritte in der Ausdruckskraft und Natürlichkeit dieser Systeme hin.

    Seniorautorin Pauline Larrouy-Maestri resümiert: „Im Gesamtergebnis wurden menschliche Stimmen immer noch als attraktiver und ansprechender empfunden als synthetische. Allerdings gab es in der Beurteilung deutliche individuelle Unterschiede. Dieses Ergebnis unterstreicht die Notwendigkeit weiterer Studien mit differenzierteren Bewertungsmethoden und einer größeren Vielfalt an Zuhörer:innen. Nur so können wir die menschliche Stimmwahrnehmung in all ihrer Komplexität erfassen.“


    Wissenschaftliche Ansprechpartner:

    Max-Planck-Institut für empirische Ästhetik
    Dr. Camila Bruder: camila.bruder@ae.mpg.de
    Pauline Larrouy-Maestri, PhD: plm@ae.mpg.de


    Originalpublikation:

    Bruder, C., Breda, P., & Larrouy-Maestri, P. (2025). Attractive Synthetic Voices. Computers in Human Behavior: Artificial Humans, 6, Article 100211. https://doi.org/10.1016/j.chbah.2025.100211


    Bilder

    KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attraktiv wahrgenommen.
    KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attrakti ...

    Copyright: (Illustration: MPIEA / L. Bittner)


    Merkmale dieser Pressemitteilung:
    Journalisten, Wissenschaftler, jedermann
    Informationstechnik, Medien- und Kommunikationswissenschaften, Psychologie, Sprache / Literatur
    überregional
    Forschungsergebnisse, Wissenschaftliche Publikationen
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).