Einen neuen Algorithmus für die Spracherkennung hat der Bochumer Wissenschaftler Dipl.-Ing. Mark Budde entwickelt. Der Algorithmus kommt ohne großen Rechenaufwand aus und ermöglicht Geräten das Verstehen mehrerer Sprecher.
Bochum, 16.03.1999
Nr. 59
Handy versteht alles und jeden
Mensch-Maschine-Schnittstelle verbessert
Neues Spracherkennungssystem von der RUB preisgekrönt
Automatische Spracherkennung ist in aller Munde. Bereits jetzt kann man seinem Computer Briefe diktieren, ohne sie tippen zu müssen. In Zukunft werden viele neue Anwendungen hinzukommen, mit denen man z.B. den Fernseher und die Waschmaschine per mündlichem Befehl bedienen kann. Bei diesen neuen Anwendungen kommt es entscheidend darauf an, daß sie möglichst preisgünstig zur Verfügung gestellt werden können. Die entsprechenden Algorithmen gibt es schon lange, bisher hatten sie aber einen entscheidenden Nachteil: Sie konnten nur einen einzigen Sprecher nach einer langen Trainingsphase verstehen. Dipl.-Ing. Mark Budde hat einen neuen Algorithmus entwickelt, der ohne großen Rechenaufwand das Verstehen mehrerer Sprecher ermöglicht. Für seine Diplomarbeit "Sprecherabhängige und sprecherunabhängige Spracherkennung unter Verwendung eines gemeinsamen Spracherkennungsalgorithmus", die an der Fakultät für Elektrotechnik und Nachrichtentechnik der RUB (Lehrstuhl für Nachrichtentechnik, Prof. Dr. Hans Dieter Fischer) in Zusammenarbeit mit der Siemens AG entstanden ist, hat er einen der "Preise für Studierende 1998" erhalten. Das Verfahren wird inzwischen in der Praxis angewandt, z.B. im "Storyteller", einem interaktiven Kinderspielzeug.
Algorithmus abgewandelt
Systeme zur Erkennung einzelner Wörter, die immer derselbe Sprecher benutzt, sind heute schon im Einsatz, z. B. in Mobiltelefonen. Bisher war es aber unrentabel, Geräte zu bauen, die jeden verstehen können, weil ihr Rechen- und Speicheraufwand ungleich höher ist als der sprecherabhängiger Geräte. Dipl.-Ing. Budde hat in seiner Arbeit untersucht, wie man einen Algorithmus, der die sprecherabhängige Erkennung ermöglicht, so abwandeln kann, daß er auch unterschiedliche Stimmen ohne vorheriges individuelles Training versteht. Während der Benutzer von sprecherabhängigen Systemen dem Gerät die Wörter nacheinander antrainieren muß, nutzt das sprecherunabhängige System ein Clusterverfahren: Alle eingegebenen Trainingsdaten werden gleichzeitig betrachtet und dann mit Hilfe unterschiedlicher statistischer Methoden sortiert. Aus den geordneten Daten schließt das System auf repräsentative Wortmuster, denen es später "gehörte" Wörter zuordnet.
98 Prozent Erkennungsrate
Zur Unterscheidung ähnlich klingender Wörter hat Dipl.-Ing. Budde dem System zur sprecherunabhängigen Spracherkennung zwei Verfahren hinzugefügt: es clustert akustisch gleiche Wortteile verschiedener Wörter gemeinsam und verschiebt im Training solche Muster, die nah an der Grenze zweier Wortklassen liegen, zu der zutreffenderen Wortklasse hin. So konnte er die Unterscheidbarkeit optimieren. Versprecher beim Training und Hintergrundgeräusche filtert das System automatisch aus den zu clusternden Daten heraus. Bei einem Wortschatz von 20 Wörtern, die von verschiedenen Sprechern geäußert wurden, erreicht es so eine Erkennungsrate von 98 Prozent.
Beispiele aus der praktischen Anwendung
Aufgrund dieses guten Ergebnisses hat das neue System schon in der Praxis Anwendung gefunden: "Speac!" ist ein Spracherkennungsmodul, das universell einsetzbar ist: z. B. in Haushaltsgeräten, Telefonen, Fernbedienungen der Unterhaltungselektronik und in Kinderspielzeug. Da gibt es beispielsweise den "Storyteller", eine Art interaktiver Geschichtenerzähler. Er hat nur noch einen Ein-/Ausschalter und einen Lautstärkeregler. Anders als bei einem Kassettenrecorder kann der Benutzer dem Gerät, das nicht größer ist als ein Gameboy, alle anderen Befehle mündlich erteilen. So bestimmt er selbst den Weg durch das Menü. Infos zu "Speac!", dem Storyteller und anderen Sprachanwendungen gibt es unter http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...
Weitere Informationen
Dipl-Ing. Mark Budde, Siemens AG, Man-Machine Cooperation, ZT IK 5 Tel. 089/636-46272, Fax. -40153, E-Mail: Mark.Budde@mchp.siemens.de,
Prof. Dr. Hans Dieter Fischer, Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik, Lehrstuhl für Nachrichtentechnik, Universitätsstr. 150, 44780 Bochum, Tel. 0234/700-2877, -3063, Fax. 0234/7094-100,
E-Mail: sekretariat@nt.ruhr-uni-bochum.de
http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...
Criteria of this press release:
Electrical engineering, Energy, Information technology, Media and communication sciences
transregional, national
Research results
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).