idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
11/14/2018 09:25

Automatische Spracherkennung: DFG-Forschungsprojekt zur Nachrichtentechnik an der Uni Paderborn

Nina Reckendorf Stabsstelle Presse und Kommunikation
Universität Paderborn

    Wie haben Siri und Co. sprechen gelernt und warum sind die digitalen Assistenten doch nicht so klug, wie wir denken? Die Hintergründe kennt Prof. Dr. Häb-Umbach von der Universität Paderborn. Der Wissenschaftler beschäftigt sich mit der automatisierten Verarbeitung von gesprochener Sprache und mit maschinellem Lernen. Aktuell hat er im Rahmen eines DFG-Projekts ein Verfahren entwickelt, das es ermöglicht, neben anderen Störgeräuschen sogar den Halleffekt in der Signalübertragung auf ein Minimum zu reduzieren. Die Methode erlaubt es außerdem, verschiedene Sprecher zu erfassen und ein Gespräch simultan zu verschriftlichen, was mit konventionellen Systemen bisher nicht möglich war.

    „Alexa, stell den Wecker!“

    Während der Mensch sein Gegenüber in der Regel auch unter schwierigen akustischen Bedingungen versteht, indem er sich konzentriert und Umgebungsgeräusche weitestgehend ausblendet, können Spracherkennungsprogramme das noch lange nicht. Das Ergebnis: Die Sprache-zu-Text-Verarbeitung funktioniert nicht mehr und auf Befehle wie „Alexa, stell den Wecker“ reagiert der Assistent mit einer Bestellung beim Bäcker. „Um solche Fehler künftig zu vermeiden, wollen wir die akustische Signalverarbeitung deutlich verbessern und Störgeräusche fast vollständig eliminieren“, so Häb-Umbach. „Wenn wir sprechen, machen wir zwischendurch kurze Pausen. Die Störgeräusche im Hintergrund laufen aber weiter. Innerhalb dieser „Lücken“ können sie vom Mikrofon identifiziert werden. Die gewonnenen Daten kann man anschließend isoliert betrachten und das Störsignal löschen“, erklärt er.

    Die Technologie, mit der Hall aus Sprachsignalen entfernt werden kann, ist neu und mit Anwendungen wie Amazon Echo brandaktuell geworden. „Störfilter für Rauschen gibt es inzwischen schon in jedem Handy. Für Hall gab es bislang allerdings keine wirklich geeigneten Tools. Das Problem wird konkret, wenn Mikrofone in größerem Abstand zum Sprecher stehen, wie es bei den digitalen Assistenten ja der Fall ist.“ Durch den Hall wird das Sprachsignal an Flächen in der Umgebung reflektiert und gelangt so auf unterschiedlichen Wegen mit unterschiedlicher Laufzeit und Dämpfung zum Mikrofon. Dazu Häb-Umbach: „Jeder kennt das: Im Badezimmer hört sich die Sprache anders an als im Wohnzimmer. Dieser Hall verwirrt den Spracherkenner. Man kann ihn eliminieren, indem man aus Trainingsdaten lernt, wie man vom verhallten Signal auf das unverhallte Signal zurückrechnen kann“.

    Neue Technologie für die Identifizierung von unterschiedlichen Sprechern

    Schwieriger wird es im Fall der sogenannten „blinden Quellentrennung“: Sobald mehrere Personen gleichzeitig reden, gelangen die Systeme an ihre Grenzen. „Verschiedene Sprecher zu erkennen und die Gespräche automatisch in eine vernünftige schriftliche Form zu bringen, war bis dato eine große Herausforderung. Uns ist es jetzt gelungen, mithilfe von neuronalen Netzen hervorragende Ergebnisse in der automatischen Spracherkennung zu erzielen “, erklärt Häb-Umbach. Dafür werden in einem ersten Schritt überlagerte Sprachsignale voneinander getrennt und anschließend separat betrachtet. „Jede Einheit wird für sich genommen von dem Spracherkennungssystem analysiert. Im Ergebnis steht ein fertiger Text, genauer gesagt ein Transkript, das eine exakte Wiedergabe des Gesprochenen ist.“ Ein Gerät, das eigenständig Gespräche verschriftlicht, könnte es also bald geben, meint der Experte.

    Um überhaupt in der Lage zu sein, eine Sprache automatisch zu erkennen, müssen die Systeme vorher mit Daten „gefüttert“ werden. Dazu Häb-Umbach: „Wir sprechen hier von der Lernphase. Dabei speisen wir Sprachsignale und gleichzeitig auch die entsprechenden Texte ein. So lernen die Systeme, welche schriftliche Repräsentation zu welchem Laut passt. Das System lernt also auch, wie die jeweiligen Wörter ausgesprochen werden.“ Inzwischen sind die Forscher sogar noch einen Schritt weiter: Sie arbeiten an selbstlernenden Systemen, die eine vorherige „Fütterung“ überflüssig machen und trotzdem fehlerfreie Protokolle liefern. „Es gibt nur ein Audiosignal und keinen Text, der als Lerngrundlage dient. Das bezeichnet man auch als „Unüberwachtes Lernen“. Nützlich ist das zum Beispiel für die Dokumentation seltener Sprachen. Linguisten könnten mithilfe der Technologie schnell Korpora, also digitale Textsammlungen, aufbauen. Das Spracherkennungsprogramm nimmt ihnen viel Arbeit ab. Denn: Die Sprachdaten mühselig per Hand zu transkribieren, nimmt unglaublich viel Zeit in Anspruch“, weiß Häb-Umbach.

    Maschinelles Lernen macht es möglich: Die Forscher haben eine Methode entwickelt, die die akustischen Bausteine gesprochener Sprache identifiziert und ein Verfahren zum Trennen der Laute entwickelt. „Das heißt, Laute werden segmentiert und als wiederkehrende Muster erkannt. So kommt man letztendlich zu dem Silbenaufbau, zu Wörtern bis hin zu ganzen Sätzen“, erklärt der Elektrotechniker. Das stößt auch bei der Industrie auf großes Interesse: „Wir haben Kontakt zu Google, Facebook, NTT und vielen anderen großen Playern“, sagt Häb-Umbach.


    Contact for scientific information:

    Prof. Dr. Reinhold Häb-Umbach, Nachrichtentechnik, Tel.: 05251 60- 3626, E-Mail: haeb@nt.upb.de


    More information:

    http://www.upb.de


    Images

    Prof. Dr. Reinhold Häb-Umbach
    Prof. Dr. Reinhold Häb-Umbach
    Universität Paderborn
    None


    Criteria of this press release:
    Business and commerce, Journalists, Scientists and scholars
    Electrical engineering, Information technology
    transregional, national
    Research projects, Research results
    German


     

    Prof. Dr. Reinhold Häb-Umbach


    For download

    x

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).