Forschende der Universität Paderborn und RWTH Aachen entwickeln Verfahren zur Signalverbesserung und Kennzeichnung, wer wann gesprochen hat
Gespräche in geselliger Runde oder wichtige Besprechungen im Büro: Die automatische Transkription, also die Verschriftung, von Gesprächssituationen ist eine Herausforderung, die bisher nur unzureichend gelöst war. Zwar ermöglichen moderne Systeme das Verschriften gesprochener Sprache, doch die Erkennungsleistungen liegen noch deutlich unter denen eines Menschen. Wissenschaftler*innen der Fachgruppe „Nachrichtentechnik“ am Heinz Nixdorf Institut der Universität Paderborn haben sich dieser Problematik angenommen. Mit innovativen Ansätzen, die auf der Nutzung von Raummikrofonen basieren, haben sie im gemeinsamen Projekt „Automatische Transkription von Gesprächssituationen“ mit der Arbeitsgruppe „Machine Learning and Human Language Technology“ des Lehrstuhl Informatik 6 der RWTH Aachen Methoden entwickelt, um maschinenlesbare Transkriptionen nicht nur präziser, sondern auch kontextsensitiver zu gestalten. So konnten die Forscher*innen Verfahren zur gleichzeitigen Signalverbesserung und Annotation – das heißt, zur Kennzeichnung bzw. Markierung, wer wann gesprochen hat – entwickeln. Diese Methoden erzielten im weltweiten Vergleich, basierend auf einem etablierten Datensatz zur Transkription von Gesprächssituationen, neue Bestwerte. Die Deutsche Forschungsgemeinschaft (DFG) hat das Projekt über drei Jahre mit rund 300.000 Euro gefördert.
Herausforderungen der automatischen Verschriftung von Gesprächen
Eine ausgereifte Software zur automatischen Verschriftung von Gesprächen, wie etwa Meetings von Geschäftspartner*innen oder Arbeitsgruppentreffen, kann das manuelle Protokollieren ersetzen und zu einer Arbeitserleichterung führen. Bisher war die Spracherkennung allerdings besonders in diesem Bereich schwierig. „Umgebungseinflüsse, wie beispielweise Raumhall, haben negativen Einfluss auf die Signalqualität. Zudem kommt es in Gesprächssituationen häufiger vor, dass sich Personen gegenseitig ins Wort fallen oder parallel verlaufende Gespräche unter Teilnehmenden entstehen. So überlappen sich dann die Signale mehrerer Sprecher*innen. Doch wir haben es geschafft, Verfahren zu entwickeln, bei denen vorab nicht bekannt sein muss, wie viele Menschen gleichzeitig sprechen oder wie oft sich das ändert“, erklärt Prof. Dr. Reinhold Häb-Umbach vom Institut für Elektrotechnik und Informationstechnik sowie Leiter des Fachgebiets „Nachrichtentechnik“ am Heinz Nixdorf Institut. „Außerdem war uns wichtig, eine sogenannte ,Ende-zu-Ende‘-Erkennung zu realisieren, um ungenaue Zwischenergebnisse zu vermeiden. Unsere neuen Methoden haben wir daraufhin überprüft, wie genau sie Sprache erkennen, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet“, ergänzt PD Dr. Ralf Schlüter von der RWTH Aachen.
Wichtiger Fortschritt für automatische Transkriptionssysteme
Ein Transkriptionssystem sollte mit beliebig langen Aufnahmen arbeiten und Gesprächssituationen mit einer oder mehreren sprechenden Personen korrekt behandeln können. Dabei muss es in der Lage sein, die Verschriftung der Äußerungen unterschiedlicher Sprecher*innen klar zuzuordnen. Aktuelle Lösungen bestehen aus verschiedenen Bausteinen, die unabhängig voneinander arbeiten: Sie teilen die Daten in gleichartige Abschnitte auf, unterscheiden zwischen verschiedenen Sprecher*innen und erkennen anschließend das Gesprochene. „Unsere Vision war es, diese Ergebnisse deutlich zu verbessern, indem diese Schritte nicht einzeln, sondern als ein zusammenhängender Prozess optimiert werden. Dementsprechend war es unser Ziel, eine kohärente Herangehensweise zu entwickeln, um die Grenzen aktueller Transkriptionssysteme zu überwinden – und das ist uns gelungen“, sagt Häb-Umbach.
Prof. Dr.-Ing. Reinhold Häb-Umbach, Institut für Elektrotechnik und Informationstechnik / Leiter des Fachgebiets „Nachrichtentechnik“ am Heinz Nixdorf Institut der Universität Paderborn, Fon: +49 5251 60-3626, E-Mail: haeb@nt.uni-paderborn.de
Foto (Universität Paderborn): Die automatische Verschriftung von Gesprächssituationen, wie z.B. bei ...
Universität Paderborn
Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler
Elektrotechnik, Informationstechnik, Sprache / Literatur
überregional
Forschungsergebnisse, Forschungsprojekte
Deutsch
Foto (Universität Paderborn): Die automatische Verschriftung von Gesprächssituationen, wie z.B. bei ...
Universität Paderborn
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).