idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
30.03.2021 16:25

Menschliche Stimmen aus dem Computer – vom Original kaum noch unterscheidbar!

Rainer Krauß Hochschulkommunikation
Hochschule Hof - University of Applied Sciences

    Hof, 30.03.2021 – Insbesondere für blinde oder sehbehinderte Menschen sind Computeranwendungen, die Texte vorlesen, bereits heute eine große Hilfe im Alltag. Auch beim Autofahren hat man sich längst an die freundlichen Stimmen aus der Navigation gewöhnt, die Fahrenden gefährliche Ablenkungen ersparen. Aber natürlich birgt die neue Technik auch Gefahren. Das Institut für Informationssysteme der Hochschule Hof forscht mit einer Studie an der Akzeptanz der künstlich generierten Stimmen und entwickelt eigene Modelle für den deutschen Markt.

    Die Qualität der sogenannten Sprachsynthese hat sich in den letzten Jahren erheblich verbessert. Klangen die Stimmen lange Zeit eher blechern oder abgehackt, so weicht der Klang nach und nach einer zunehmenden Natürlichkeit und unauffälligen Sprachdynamik. Damit wird auch das Hören längerer Texte angenehm.

    Rasante Verbesserung der Sprachqualität

    „Erreicht werden konnte dies in der internationalen Forschung durch den Einsatz tiefer, neuronaler Netze. Insbesondere im englischen Sprachraum kann man bereits heute kaum noch unterscheiden, ob es sich um einen echten Menschen oder um ein Programm handelt“, so Prof. Dr. Rene Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof. Es gibt demnach mittlerweile eine Reihe frei verfügbarer Modelle, die sehr natürlich Englisch sprechen, wenn ausreichend viele Trainingsdaten verwendet werden. Die Spracherzeugung passiert dabei zumeist zweistufig. Zunächst wird ein sogenanntes Mel-Spektrogramm erzeugt, das eine Repräsentation der Sprachfrequenzen darstellt. Daraus erzeugt dann ein Vocoder das eigentliche Audiosignal. Beide Stufen sind neuronale Netze, die getrennt trainiert werden müssen.

    Akzeptanz auf dem Prüfstand

    Im DAMMIT-Programm der Hochschule Hof, das sich dem Technologietransfer zwischen Hochschule und mittelständischen Unternehmen zur digitalen Transformation auseinandersetzt, wird analysiert, wie hoch die Akzeptanz von Benutzern für computer-generierte Stimmen ist. Probanden bekommen dabei Textinhalte mittlerer Länge vorgelesen - also zum Beispiel Nachrichten mit einer halben Bildschirmseite Länge. Die in den letzten Jahren stattfindende, stetige Verbesserung der Qualität der Sprachsynthese erhöht einerseits den Komfort und die Einsatzmöglichkeiten der Technik, birgt andererseits aber auch Gefahren, da maschinelle Stimmen, die menschlich klingen, natürlich auch für Betrug oder Straftaten eingesetzt werden können.

    Viele Anwendungsmöglichkeiten

    Das automatisierte Vorlesen von Texten findet sich derzeit in immer mehr Anwendungsbereichen. Informationen aufnehmen zu können, obwohl sich die Augen auf ein anderes Ziel konzentrieren müssen, ist ein unschätzbarer Vorteil: „Sprachsynthese ist natürlich ein wesentlicher Teil der Barrierefreiheit für Menschen mit Seheinschränkung. Ganz praktisch können aber zum Beispiel Aufträge für u.a. Gabelstaplerfahrer verbalisiert werden, was in deren Arbeitsablauf sehr hilfreich und zeitsparend sein kann. Oder man kann sich die täglichen Nachrichten mit der persönlichen Lieblingsstimme vorlesen lassen. Allgemein ist die Sprachsynthese auch ein wichtiger Teil von sprachgesteuerten Anwendungen wie Smart Speakern, z.B. Alexa von Amazon“, führt Prof. Dr. Peinl einige Einsatzmöglichkeiten aus.

    Marktnachfrage wächst

    Dabei dürfte die Nachfrage nach automatisch erstellten, aber menschlich klingenden Stimmen, erst am Anfang stehen. Ein Beispiel hierfür ist am Campus der Hochschule Hof und dort im Gründerzentrum Einstein 1 zu finden: Das Start-up-Unternehmen ahearo bietet einen Dienst an, bei dem man sich Inhalte, die sonst nur als Text verfügbar sind, auch als Audio-Podcast anhören kann. Diese Texte werden bisher von menschlichen Sprechern eingelesen. „Eine solche Produktion ist natürlich kostenintensiv und stößt auch aufgrund der eingeschränkten Verfügbarkeit von professionellen Sprechern an ihre Grenzen. Die Zusammenarbeit mit der Hochschule Hof eröffnet uns deshalb völlig neue Möglichkeiten“, so Johannes Garbarek, Gründer und CEO von ahearo.

    Hohe Geschwindigkeit und geringe Kosten

    „Für ahearo und andere Unternehmen, die eine kostengünstige und schnelle Möglichkeit suchen, qualitativ ansprechende Sprachsynthese in ihre Produkte einzubinden, entwickeln wir eine Lösung für die Generierung deutscher Sprache aus Text“, erläutert Prof. Dr. Peinl. Dabei kommen frei verfügbare, selbst erstellte und von ahearo bereitgestellte Audiodaten zum Einsatz, um die Sprachsynthese-Modelle bestmöglich zu trainieren. Die Evaluation erfolgt sowohl über objektiv messbare Werte als auch über subjektive Einschätzungen der Probanden.

    Ermutigende Zwischenergebnisse

    Die bislang vorliegenden Ergebnisse sind ermutigend und lassen auf einen baldigen praktischen Einsatz der Software hoffen: „Kurze Sätze werden in unserem Modell bereits sehr gut vorgelesen. Herausforderungen sind aktuell noch Pausen und Betonungen in komplexeren Sätzen, sowie Abkürzungen, zusammengesetzte Wörter und Eigennamen“, erläutert Forscher Peinl. Dass es dabei dem Computerprogramm mitunter nicht anders ergeht als dem Menschen, belegt eine kleine Anekdote: „Wir haben zum Beispiel das Wort „Frühsommer-Meningoenzephalitis (FSME)“ in unseren Test-Texten stehen. Wen wundert es, dass nicht nur wir, sondern auch der Computer mit solchen Wortungetümen so seine Schwierigkeiten hat“, so Professor Dr. Peinl.

    Förderung

    Die Ergebnisse der Studie, sowie die im Rahmen der Forschung entstehende Software werden veröffentlicht und zugänglich gemacht. Das Projekt wird im Rahmen des EFRE-Programms Bayern 2014-2020, von der Europäischen Union über den Fond für Regionale Entwicklung sowie vom Bayerischen Staatsministerium für Wissenschaft und Kunst gefördert. Ein weiterer Projektpartner ist zudem das am Campus der Hochschule Hof beheimatete Unternehmen smartlytic GmbH für Softwareentwicklung und Datenanalyse.


    Wissenschaftliche Ansprechpartner:

    Prof. Dr. René Peinl

    Informatik
    Master Internet - Web Science

    Hochschule Hof
    Alfons-Goppel-Platz 1
    95028 Hof

    Fon: +49 (0) 9281 / 409 4820
    E-Mail: rene.peinl@hof-university.de


    Bilder

    Prof. Dr. Rene Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof
    Prof. Dr. Rene Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof
    Hochschule Hof
    Hochschule Hof


    Anhang
    attachment icon Menschliche Computerstimmen - vom Original kaum noch unterscheidbar

    Merkmale dieser Pressemitteilung:
    Journalisten, Lehrer/Schüler, Studierende, Wirtschaftsvertreter, Wissenschaftler, jedermann
    Informationstechnik, Medien- und Kommunikationswissenschaften, Verkehr / Transport, Wirtschaft
    überregional
    Forschungsergebnisse, Forschungsprojekte
    Deutsch


     

    Prof. Dr. Rene Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof


    Zum Download

    x

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).