Mit dem „Graz Corpus of Read and Spontaneous Speech“ haben Forschende der TU Graz anhand der Sprachdaten von 38 Personen neue Methoden zur maschinellen Erkennung von gesprochenem österreichischen Deutsch entwickelt.
Fremdsprachige Menschen, die mit guten Deutschkenntnissen nach Österreich kommen, haben es meist schwer, die lokalen Dialekte zu verstehen. Ähnlich geht es Spracherkennungssystemen, die bislang häufig an der Entschlüsselung regional gefärbter Wortwahl und Aussprache scheitern. Barbara Schuppler vom Institut für Signalverarbeitung und Sprachkommunikation der TU Graz hat gemeinsam mit Forschenden des Know Centers und der Universität Graz die Komplexität von Konversationssprache untersucht, eine Datenbank mit Konversationen in österreichischem Deutsch aufgebaut und neue Erkenntnisse zur Verbesserung der Spracherkennung gewonnen. Die Ergebnisse wurden kürzlich in dem Paper „What's so complex about conversational speech?" im Journal Computer Speech & Language veröffentlicht. Gefördert wurde das fünfjährige Projekt vom Österreichischen Wissenschaftsfonds FWF.
Freie Gespräche im Tonstudio
Eines der Hauptziele des Projekts war, die Genauigkeit von Spracherkennungssystemen (Automatic Speech Recognition, ASR) in spontanen Konversationen mit Sprechenden aus Österreich zu verbessern. Das Team konzentrierte sich dabei auf die Herausforderungen, die sich aus der Spontaneität, den kurzen Sätzen, der Überlappung von Sprechenden und der dialektalen Färbung der Aussprache in alltäglichen Gesprächen ergeben. Um die passende Datenbasis zu haben, bauten die Forschenden die GRASS-Datenbank auf (Graz Corpus of Read and Spontaneous Speech). Sie enthält Aufnahmen von 38 Sprechenden, die sowohl gelesene Texte als auch spontane Gespräche umfassen, bei denen zwei Personen, die sich gut kannten, ohne Themenvorgabe im Tonstudio eine Stunde frei miteinander sprachen. Da dieselben Sprechenden in beiden Kategorien aufgenommen wurden, konnte das Forschungsteam den Einfluss von Sprecheridentität und Aufnahmequalität auf die ASR-Leistung eliminieren.
Auf Basis der Datenbank verglich das Team verschiedene ASR-Architekturen, darunter die schon lange existierenden HMM-Modelle (Hidden-Markov-Modelle) und die recht jungen Transformer-basierten Modelle. Dabei zeigte sich, dass Transformer-basierte Modelle, wie z.B. das Spracherkennungssystem Whisper, zwar bei längeren Sätzen mit viel Kontext sehr gut funktionieren, aber bei kurzen, fragmentarischen Sätzen, die in Konversationen häufig vorkommen, Probleme haben. Traditionelle HMM-basierte Systeme, die explizit mit Aussprachevariationen trainiert wurden, erwiesen sich bei kurzen Sätzen und Dialektsprache als robuster. Die Forschenden möchten daher einen hybriden Systemansatz verfolgen, der die Stärken beider Architekturen kombiniert. So haben sie bereits ein Transformer-Modell mit einem wissensbasierten Lexikon und einem statistischen Sprachmodell kombiniert und dadurch signifikante Verbesserungen erzielt.
Einsatz in medizinischer Diagnostik möglich
Darüber hinaus analysierte das Team, wie Merkmale wie die Sprechgeschwindigkeit, die Intonation und die Wortwahl die Genauigkeit der Spracherkennung beeinflussen. Diese Erkenntnisse können dazu beitragen, ASR-Systeme zu entwickeln, die die menschliche Sprache in all ihren Nuancen besser verstehen. Das Team plant, die Forschung in diesen Bereichen fortzusetzen und die gewonnenen Erkenntnisse in die Entwicklung neuer, robusterer Spracherkennungssysteme einfließen zu lassen. Die Ergebnisse des Projekts haben aber auch darüber hinaus interessante Anwendungsmöglichkeiten, insbesondere in den Bereichen der medizinischen Diagnostik und der Mensch-Computer-Interaktion. So könnten ASR-Systeme zukünftig eingesetzt werden, um Demenz oder Epilepsie anhand von Sprachmustern in spontanen Gesprächen zu erkennen oder um die Interaktion mit sozialen Robotern natürlicher zu gestalten.
„Spontane Sprache, vor allem im Zwiegespräch, hat völlig andere Merkmale als eine vorgetragene oder gelesene Rede“, sagt Barbara Schuppler. „Gerade durch die Analyse von Mensch-Mensch-Kommunikation haben wir in unserem Projekt wichtige Erkenntnisse erreicht, die uns auch technisch weiterhelfen und neue Anwendungsbereiche aufmachen. Gemeinsam mit Partnern von der PMU Salzburg, Med Uni Graz und der Med Uni Wien arbeiten wir jetzt schon an Folgeprojekten, um auf Basis der Grundlagen, die wir im FWF Projekt geschaffen haben, gesellschaftsrelevante Anwendungsmöglichkeiten zu schaffen.“
Barbara SCHUPPLER
Ass.Prof. Mag.rer.nat. Dr.
TU Graz | Institut für Signalverarbeitung und Sprachkommunikation
Tel.: +43 316 873 4366
b.schuppler@tugraz.at
What’s so complex about conversational speech? A comparison of HMM-based and transformer-based ASR architectures
Autor*innen: Julian Linke, Bernhard C. Geiger, Gernot Kubin, Barbara Schuppler
In: Computer Speech & Language, Volume 90, March 2025
DOI: https://doi.org/10.1016/j.csl.2024.101738
Spontanität, kurze Sätze, Überlappung von Sprechenden und dialektale Färbung bereiten Spracherkennun ...
andreusK/Adobe Stock
Merkmale dieser Pressemitteilung:
Journalisten, jedermann
Informationstechnik, Sprache / Literatur
überregional
Forschungsergebnisse
Deutsch
Spontanität, kurze Sätze, Überlappung von Sprechenden und dialektale Färbung bereiten Spracherkennun ...
andreusK/Adobe Stock
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).