Mit dem „Graz Corpus of Read and Spontaneous Speech“ haben Forschende der TU Graz anhand der Sprachdaten von 38 Personen neue Methoden zur maschinellen Erkennung von gesprochenem österreichischen Deutsch entwickelt.
Fremdsprachige Menschen, die mit guten Deutschkenntnissen nach Österreich kommen, haben es meist schwer, die lokalen Dialekte zu verstehen. Ähnlich geht es Spracherkennungssystemen, die bislang häufig an der Entschlüsselung regional gefärbter Wortwahl und Aussprache scheitern. Barbara Schuppler vom Institut für Signalverarbeitung und Sprachkommunikation der TU Graz hat gemeinsam mit Forschenden des Know Centers und der Universität Graz die Komplexität von Konversationssprache untersucht, eine Datenbank mit Konversationen in österreichischem Deutsch aufgebaut und neue Erkenntnisse zur Verbesserung der Spracherkennung gewonnen. Die Ergebnisse wurden kürzlich in dem Paper „What's so complex about conversational speech?" im Journal Computer Speech & Language veröffentlicht. Gefördert wurde das fünfjährige Projekt vom Österreichischen Wissenschaftsfonds FWF.
Freie Gespräche im Tonstudio
Eines der Hauptziele des Projekts war, die Genauigkeit von Spracherkennungssystemen (Automatic Speech Recognition, ASR) in spontanen Konversationen mit Sprechenden aus Österreich zu verbessern. Das Team konzentrierte sich dabei auf die Herausforderungen, die sich aus der Spontaneität, den kurzen Sätzen, der Überlappung von Sprechenden und der dialektalen Färbung der Aussprache in alltäglichen Gesprächen ergeben. Um die passende Datenbasis zu haben, bauten die Forschenden die GRASS-Datenbank auf (Graz Corpus of Read and Spontaneous Speech). Sie enthält Aufnahmen von 38 Sprechenden, die sowohl gelesene Texte als auch spontane Gespräche umfassen, bei denen zwei Personen, die sich gut kannten, ohne Themenvorgabe im Tonstudio eine Stunde frei miteinander sprachen. Da dieselben Sprechenden in beiden Kategorien aufgenommen wurden, konnte das Forschungsteam den Einfluss von Sprecheridentität und Aufnahmequalität auf die ASR-Leistung eliminieren.
Auf Basis der Datenbank verglich das Team verschiedene ASR-Architekturen, darunter die schon lange existierenden HMM-Modelle (Hidden-Markov-Modelle) und die recht jungen Transformer-basierten Modelle. Dabei zeigte sich, dass Transformer-basierte Modelle, wie z.B. das Spracherkennungssystem Whisper, zwar bei längeren Sätzen mit viel Kontext sehr gut funktionieren, aber bei kurzen, fragmentarischen Sätzen, die in Konversationen häufig vorkommen, Probleme haben. Traditionelle HMM-basierte Systeme, die explizit mit Aussprachevariationen trainiert wurden, erwiesen sich bei kurzen Sätzen und Dialektsprache als robuster. Die Forschenden möchten daher einen hybriden Systemansatz verfolgen, der die Stärken beider Architekturen kombiniert. So haben sie bereits ein Transformer-Modell mit einem wissensbasierten Lexikon und einem statistischen Sprachmodell kombiniert und dadurch signifikante Verbesserungen erzielt.
Einsatz in medizinischer Diagnostik möglich
Darüber hinaus analysierte das Team, wie Merkmale wie die Sprechgeschwindigkeit, die Intonation und die Wortwahl die Genauigkeit der Spracherkennung beeinflussen. Diese Erkenntnisse können dazu beitragen, ASR-Systeme zu entwickeln, die die menschliche Sprache in all ihren Nuancen besser verstehen. Das Team plant, die Forschung in diesen Bereichen fortzusetzen und die gewonnenen Erkenntnisse in die Entwicklung neuer, robusterer Spracherkennungssysteme einfließen zu lassen. Die Ergebnisse des Projekts haben aber auch darüber hinaus interessante Anwendungsmöglichkeiten, insbesondere in den Bereichen der medizinischen Diagnostik und der Mensch-Computer-Interaktion. So könnten ASR-Systeme zukünftig eingesetzt werden, um Demenz oder Epilepsie anhand von Sprachmustern in spontanen Gesprächen zu erkennen oder um die Interaktion mit sozialen Robotern natürlicher zu gestalten.
„Spontane Sprache, vor allem im Zwiegespräch, hat völlig andere Merkmale als eine vorgetragene oder gelesene Rede“, sagt Barbara Schuppler. „Gerade durch die Analyse von Mensch-Mensch-Kommunikation haben wir in unserem Projekt wichtige Erkenntnisse erreicht, die uns auch technisch weiterhelfen und neue Anwendungsbereiche aufmachen. Gemeinsam mit Partnern von der PMU Salzburg, Med Uni Graz und der Med Uni Wien arbeiten wir jetzt schon an Folgeprojekten, um auf Basis der Grundlagen, die wir im FWF Projekt geschaffen haben, gesellschaftsrelevante Anwendungsmöglichkeiten zu schaffen.“
Barbara SCHUPPLER
Ass.Prof. Mag.rer.nat. Dr.
TU Graz | Institut für Signalverarbeitung und Sprachkommunikation
Tel.: +43 316 873 4366
b.schuppler@tugraz.at
What’s so complex about conversational speech? A comparison of HMM-based and transformer-based ASR architectures
Autor*innen: Julian Linke, Bernhard C. Geiger, Gernot Kubin, Barbara Schuppler
In: Computer Speech & Language, Volume 90, March 2025
DOI: https://doi.org/10.1016/j.csl.2024.101738
Spontanität, kurze Sätze, Überlappung von Sprechenden und dialektale Färbung bereiten Spracherkennun ...
andreusK/Adobe Stock
Criteria of this press release:
Journalists, all interested persons
Information technology, Language / literature
transregional, national
Research results
German
Spontanität, kurze Sätze, Überlappung von Sprechenden und dialektale Färbung bereiten Spracherkennun ...
andreusK/Adobe Stock
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).