idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
03/16/1999 14:41

Preiswerte sprecherunabhängige Spracherkennung für technische Geräte

Dr. Josef König Dezernat Hochschulkommunikation
Ruhr-Universität Bochum

    Einen neuen Algorithmus für die Spracherkennung hat der Bochumer Wissenschaftler Dipl.-Ing. Mark Budde entwickelt. Der Algorithmus kommt ohne großen Rechenaufwand aus und ermöglicht Geräten das Verstehen mehrerer Sprecher.

    Bochum, 16.03.1999
    Nr. 59

    Handy versteht alles und jeden
    Mensch-Maschine-Schnittstelle verbessert
    Neues Spracherkennungssystem von der RUB preisgekrönt

    Automatische Spracherkennung ist in aller Munde. Bereits jetzt kann man seinem Computer Briefe diktieren, ohne sie tippen zu müssen. In Zukunft werden viele neue Anwendungen hinzukommen, mit denen man z.B. den Fernseher und die Waschmaschine per mündlichem Befehl bedienen kann. Bei diesen neuen Anwendungen kommt es entscheidend darauf an, daß sie möglichst preisgünstig zur Verfügung gestellt werden können. Die entsprechenden Algorithmen gibt es schon lange, bisher hatten sie aber einen entscheidenden Nachteil: Sie konnten nur einen einzigen Sprecher nach einer langen Trainingsphase verstehen. Dipl.-Ing. Mark Budde hat einen neuen Algorithmus entwickelt, der ohne großen Rechenaufwand das Verstehen mehrerer Sprecher ermöglicht. Für seine Diplomarbeit "Sprecherabhängige und sprecherunabhängige Spracherkennung unter Verwendung eines gemeinsamen Spracherkennungsalgorithmus", die an der Fakultät für Elektrotechnik und Nachrichtentechnik der RUB (Lehrstuhl für Nachrichtentechnik, Prof. Dr. Hans Dieter Fischer) in Zusammenarbeit mit der Siemens AG entstanden ist, hat er einen der "Preise für Studierende 1998" erhalten. Das Verfahren wird inzwischen in der Praxis angewandt, z.B. im "Storyteller", einem interaktiven Kinderspielzeug.

    Algorithmus abgewandelt

    Systeme zur Erkennung einzelner Wörter, die immer derselbe Sprecher benutzt, sind heute schon im Einsatz, z. B. in Mobiltelefonen. Bisher war es aber unrentabel, Geräte zu bauen, die jeden verstehen können, weil ihr Rechen- und Speicheraufwand ungleich höher ist als der sprecherabhängiger Geräte. Dipl.-Ing. Budde hat in seiner Arbeit untersucht, wie man einen Algorithmus, der die sprecherabhängige Erkennung ermöglicht, so abwandeln kann, daß er auch unterschiedliche Stimmen ohne vorheriges individuelles Training versteht. Während der Benutzer von sprecherabhängigen Systemen dem Gerät die Wörter nacheinander antrainieren muß, nutzt das sprecherunabhängige System ein Clusterverfahren: Alle eingegebenen Trainingsdaten werden gleichzeitig betrachtet und dann mit Hilfe unterschiedlicher statistischer Methoden sortiert. Aus den geordneten Daten schließt das System auf repräsentative Wortmuster, denen es später "gehörte" Wörter zuordnet.

    98 Prozent Erkennungsrate

    Zur Unterscheidung ähnlich klingender Wörter hat Dipl.-Ing. Budde dem System zur sprecherunabhängigen Spracherkennung zwei Verfahren hinzugefügt: es clustert akustisch gleiche Wortteile verschiedener Wörter gemeinsam und verschiebt im Training solche Muster, die nah an der Grenze zweier Wortklassen liegen, zu der zutreffenderen Wortklasse hin. So konnte er die Unterscheidbarkeit optimieren. Versprecher beim Training und Hintergrundgeräusche filtert das System automatisch aus den zu clusternden Daten heraus. Bei einem Wortschatz von 20 Wörtern, die von verschiedenen Sprechern geäußert wurden, erreicht es so eine Erkennungsrate von 98 Prozent.

    Beispiele aus der praktischen Anwendung

    Aufgrund dieses guten Ergebnisses hat das neue System schon in der Praxis Anwendung gefunden: "Speac!" ist ein Spracherkennungsmodul, das universell einsetzbar ist: z. B. in Haushaltsgeräten, Telefonen, Fernbedienungen der Unterhaltungselektronik und in Kinderspielzeug. Da gibt es beispielsweise den "Storyteller", eine Art interaktiver Geschichtenerzähler. Er hat nur noch einen Ein-/Ausschalter und einen Lautstärkeregler. Anders als bei einem Kassettenrecorder kann der Benutzer dem Gerät, das nicht größer ist als ein Gameboy, alle anderen Befehle mündlich erteilen. So bestimmt er selbst den Weg durch das Menü. Infos zu "Speac!", dem Storyteller und anderen Sprachanwendungen gibt es unter http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...

    Weitere Informationen

    Dipl-Ing. Mark Budde, Siemens AG, Man-Machine Cooperation, ZT IK 5 Tel. 089/636-46272, Fax. -40153, E-Mail: Mark.Budde@mchp.siemens.de,

    Prof. Dr. Hans Dieter Fischer, Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik, Lehrstuhl für Nachrichtentechnik, Universitätsstr. 150, 44780 Bochum, Tel. 0234/700-2877, -3063, Fax. 0234/7094-100,
    E-Mail: sekretariat@nt.ruhr-uni-bochum.de


    More information:

    http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...


    Images

    Criteria of this press release:
    Electrical engineering, Energy, Information technology, Media and communication sciences
    transregional, national
    Research results
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).