Menschliche Stimmen aus dem Computer – vom Original kaum noch unterscheidbar!

Share on:

03/30/2021 16:25

Menschliche Stimmen aus dem Computer – vom Original kaum noch unterscheidbar!

Rainer Krauß Hochschulkommunikation
Hochschule Hof - University of Applied Sciences

Hof, 30.03.2021 – Insbesondere für blinde oder sehbehinderte Menschen sind Computeranwendungen, die Texte vorlesen, bereits heute eine große Hilfe im Alltag. Auch beim Autofahren hat man sich längst an die freundlichen Stimmen aus der Navigation gewöhnt, die Fahrenden gefährliche Ablenkungen ersparen. Aber natürlich birgt die neue Technik auch Gefahren. Das Institut für Informationssysteme der Hochschule Hof forscht mit einer Studie an der Akzeptanz der künstlich generierten Stimmen und entwickelt eigene Modelle für den deutschen Markt.

Die Qualität der sogenannten Sprachsynthese hat sich in den letzten Jahren erheblich verbessert. Klangen die Stimmen lange Zeit eher blechern oder abgehackt, so weicht der Klang nach und nach einer zunehmenden Natürlichkeit und unauffälligen Sprachdynamik. Damit wird auch das Hören längerer Texte angenehm.

Rasante Verbesserung der Sprachqualität

„Erreicht werden konnte dies in der internationalen Forschung durch den Einsatz tiefer, neuronaler Netze. Insbesondere im englischen Sprachraum kann man bereits heute kaum noch unterscheiden, ob es sich um einen echten Menschen oder um ein Programm handelt“, so Prof. Dr. Rene Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof. Es gibt demnach mittlerweile eine Reihe frei verfügbarer Modelle, die sehr natürlich Englisch sprechen, wenn ausreichend viele Trainingsdaten verwendet werden. Die Spracherzeugung passiert dabei zumeist zweistufig. Zunächst wird ein sogenanntes Mel-Spektrogramm erzeugt, das eine Repräsentation der Sprachfrequenzen darstellt. Daraus erzeugt dann ein Vocoder das eigentliche Audiosignal. Beide Stufen sind neuronale Netze, die getrennt trainiert werden müssen.

Akzeptanz auf dem Prüfstand

Im DAMMIT-Programm der Hochschule Hof, das sich dem Technologietransfer zwischen Hochschule und mittelständischen Unternehmen zur digitalen Transformation auseinandersetzt, wird analysiert, wie hoch die Akzeptanz von Benutzern für computer-generierte Stimmen ist. Probanden bekommen dabei Textinhalte mittlerer Länge vorgelesen - also zum Beispiel Nachrichten mit einer halben Bildschirmseite Länge. Die in den letzten Jahren stattfindende, stetige Verbesserung der Qualität der Sprachsynthese erhöht einerseits den Komfort und die Einsatzmöglichkeiten der Technik, birgt andererseits aber auch Gefahren, da maschinelle Stimmen, die menschlich klingen, natürlich auch für Betrug oder Straftaten eingesetzt werden können.

Viele Anwendungsmöglichkeiten

Das automatisierte Vorlesen von Texten findet sich derzeit in immer mehr Anwendungsbereichen. Informationen aufnehmen zu können, obwohl sich die Augen auf ein anderes Ziel konzentrieren müssen, ist ein unschätzbarer Vorteil: „Sprachsynthese ist natürlich ein wesentlicher Teil der Barrierefreiheit für Menschen mit Seheinschränkung. Ganz praktisch können aber zum Beispiel Aufträge für u.a. Gabelstaplerfahrer verbalisiert werden, was in deren Arbeitsablauf sehr hilfreich und zeitsparend sein kann. Oder man kann sich die täglichen Nachrichten mit der persönlichen Lieblingsstimme vorlesen lassen. Allgemein ist die Sprachsynthese auch ein wichtiger Teil von sprachgesteuerten Anwendungen wie Smart Speakern, z.B. Alexa von Amazon“, führt Prof. Dr. Peinl einige Einsatzmöglichkeiten aus.

Marktnachfrage wächst

Dabei dürfte die Nachfrage nach automatisch erstellten, aber menschlich klingenden Stimmen, erst am Anfang stehen. Ein Beispiel hierfür ist am Campus der Hochschule Hof und dort im Gründerzentrum Einstein 1 zu finden: Das Start-up-Unternehmen ahearo bietet einen Dienst an, bei dem man sich Inhalte, die sonst nur als Text verfügbar sind, auch als Audio-Podcast anhören kann. Diese Texte werden bisher von menschlichen Sprechern eingelesen. „Eine solche Produktion ist natürlich kostenintensiv und stößt auch aufgrund der eingeschränkten Verfügbarkeit von professionellen Sprechern an ihre Grenzen. Die Zusammenarbeit mit der Hochschule Hof eröffnet uns deshalb völlig neue Möglichkeiten“, so Johannes Garbarek, Gründer und CEO von ahearo.

Hohe Geschwindigkeit und geringe Kosten

„Für ahearo und andere Unternehmen, die eine kostengünstige und schnelle Möglichkeit suchen, qualitativ ansprechende Sprachsynthese in ihre Produkte einzubinden, entwickeln wir eine Lösung für die Generierung deutscher Sprache aus Text“, erläutert Prof. Dr. Peinl. Dabei kommen frei verfügbare, selbst erstellte und von ahearo bereitgestellte Audiodaten zum Einsatz, um die Sprachsynthese-Modelle bestmöglich zu trainieren. Die Evaluation erfolgt sowohl über objektiv messbare Werte als auch über subjektive Einschätzungen der Probanden.

Ermutigende Zwischenergebnisse

Die bislang vorliegenden Ergebnisse sind ermutigend und lassen auf einen baldigen praktischen Einsatz der Software hoffen: „Kurze Sätze werden in unserem Modell bereits sehr gut vorgelesen. Herausforderungen sind aktuell noch Pausen und Betonungen in komplexeren Sätzen, sowie Abkürzungen, zusammengesetzte Wörter und Eigennamen“, erläutert Forscher Peinl. Dass es dabei dem Computerprogramm mitunter nicht anders ergeht als dem Menschen, belegt eine kleine Anekdote: „Wir haben zum Beispiel das Wort „Frühsommer-Meningoenzephalitis (FSME)“ in unseren Test-Texten stehen. Wen wundert es, dass nicht nur wir, sondern auch der Computer mit solchen Wortungetümen so seine Schwierigkeiten hat“, so Professor Dr. Peinl.

Förderung

Die Ergebnisse der Studie, sowie die im Rahmen der Forschung entstehende Software werden veröffentlicht und zugänglich gemacht. Das Projekt wird im Rahmen des EFRE-Programms Bayern 2014-2020, von der Europäischen Union über den Fond für Regionale Entwicklung sowie vom Bayerischen Staatsministerium für Wissenschaft und Kunst gefördert. Ein weiterer Projektpartner ist zudem das am Campus der Hochschule Hof beheimatete Unternehmen smartlytic GmbH für Softwareentwicklung und Datenanalyse.

Contact for scientific information:

Prof. Dr. René Peinl

Informatik
Master Internet - Web Science

Hochschule Hof
Alfons-Goppel-Platz 1
95028 Hof

Fon: +49 (0) 9281 / 409 4820
E-Mail: rene.peinl@hof-university.de

Images

Prof. Dr. Rene Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof
Source: Hochschule Hof
Copyright: Hochschule Hof

Attachment

Menschliche Computerstimmen - vom Original kaum noch unterscheidbar

Criteria of this press release:
Business and commerce, Journalists, Scientists and scholars, Students, Teachers and pupils, all interested persons
Economics / business administration, Information technology, Media and communication sciences, Traffic / transport
transregional, national
Research projects, Research results
German

idw – Informationsdienst Wissenschaft

idw-News App:

Menschliche Stimmen aus dem Computer – vom Original kaum noch unterscheidbar!

Rainer Krauß Hochschulkommunikation
Hochschule Hof - University of Applied Sciences

Contact for scientific information:

idw-News App:

Menschliche Stimmen aus dem Computer – vom Original kaum noch unterscheidbar!

Rainer Krauß Hochschulkommunikation Hochschule Hof - University of Applied Sciences

Contact for scientific information:

Advanced Search

Extent of search

Date of publication

Help

Search / advanced search of the idw archives

Combination of search terms

Brackets

Phrases

Selection criteria

Rainer Krauß Hochschulkommunikation
Hochschule Hof - University of Applied Sciences