idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
10/23/2025 09:06

Wie attraktiv klingen KI-Stimmen?

Ina Wittmann Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für empirische Ästhetik

    Angesichts der jüngsten Fortschritte auf dem Gebiet der Künstlichen Intelligenz (KI) stellt sich zunehmend die Frage, wie sehr uns synthetisch erzeugte Stimmen täuschen können. Sind KI-Stimmen überhaupt noch von menschlichen Stimmen zu unterscheiden – und wie attraktiv klingen sie? Ein Team aus Forscherinnen des Max-Planck-Instituts für empirische Ästhetik (MPIEA) in Frankfurt am Main und der Universität für angewandte Kunst Wien, Österreich, hat festgestellt, dass synthetische Stimmen oft für menschliche gehalten, im Durchschnitt aber weniger attraktiv wahrgenommen werden. Die Ergebnisse der Studie sind kürzlich im Fachmagazin Computers in Human Behavior: Artificial Humans erschienen.

    Insgesamt 75 Personen nahmen an der Online-Studie teil. Die Teilnehmer:innen hörten verschiedene Versionen eines Satzes, der von insgesamt acht Stimmen vorgetragen wurde. Vier davon waren menschliche Stimmen, die anderen vier künstlich generierte Text-to-Speech-(TTS)-Stimmen. Jede Stimme präsentierte den Satz viermal in unterschiedlicher emotionaler Färbung: neutral, fröhlich, traurig und wütend. Die Teilnehmer:innen beurteilten die Attraktivität der Stimmen und gaben an, wie gerne sie mit ihnen interagieren würden. Darüber hinaus beschrieben sie, welche Emotion sie jeweils wahrgenommen hatten.

    Erstautorin Camila Bruder vom MPIEA berichtet: „Fröhliche Stimmen wurden insgesamt positiver bewertet als solche, die traurig oder wütend klangen – egal, ob es sich dabei um menschliche oder künstlich erzeugte Stimmen handelte. Das deutet darauf hin, dass die wahrgenommene Emotion die Bewertung aller Stimmen in gleicher Weise beeinflusst beziehungsweise dass KI-Stimmen ähnlich wie menschliche Stimmen behandelt werden.“

    Zudem sollten die Teilnehmer:innen angeben, ob sie die jeweilige Stimme für menschlich oder KI-generiert hielten. Menschliche Stimmen identifizierten die Zuhörer:innen zu 86 Prozent korrekt, KI-Stimmen hingegen nur zu 55 Prozent. Am deutlichsten zeigten sich Fehleinschätzungen bei KI-Stimmen, die als wütend wahrgenommen wurden. Dies könnte darauf zurückzuführen sein, dass die Teilnehmer:innen möglicherweise nach wie vor eher „emotionslose“ synthetische Stimmen erwarteten.

    Darüber hinaus zeigte sich, dass auch das Alter eine Rolle bei der Einschätzung spielte: Ältere Teilnehmer:innen hatten größere Schwierigkeiten, zwischen menschlichen und KI-generierten Stimmen zu unterscheiden. Die Tatsache, dass die Mehrheit der Teilnehmer:innen von den TTS-Stimmen „getäuscht” wurden, deutet auf erhebliche Fortschritte in der Ausdruckskraft und Natürlichkeit dieser Systeme hin.

    Seniorautorin Pauline Larrouy-Maestri resümiert: „Im Gesamtergebnis wurden menschliche Stimmen immer noch als attraktiver und ansprechender empfunden als synthetische. Allerdings gab es in der Beurteilung deutliche individuelle Unterschiede. Dieses Ergebnis unterstreicht die Notwendigkeit weiterer Studien mit differenzierteren Bewertungsmethoden und einer größeren Vielfalt an Zuhörer:innen. Nur so können wir die menschliche Stimmwahrnehmung in all ihrer Komplexität erfassen.“


    Contact for scientific information:

    Max-Planck-Institut für empirische Ästhetik
    Dr. Camila Bruder: camila.bruder@ae.mpg.de
    Pauline Larrouy-Maestri, PhD: plm@ae.mpg.de


    Original publication:

    Bruder, C., Breda, P., & Larrouy-Maestri, P. (2025). Attractive Synthetic Voices. Computers in Human Behavior: Artificial Humans, 6, Article 100211. https://doi.org/10.1016/j.chbah.2025.100211


    Images

    KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attraktiv wahrgenommen.
    KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attrakti ...

    Copyright: (Illustration: MPIEA / L. Bittner)


    Criteria of this press release:
    Journalists, Scientists and scholars, all interested persons
    Information technology, Language / literature, Media and communication sciences, Psychology
    transregional, national
    Research results, Scientific Publications
    German


     

    KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attraktiv wahrgenommen.


    For download

    x

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).