idw - Informationsdienst
Wissenschaft
Einen neuen Algorithmus für die Spracherkennung hat der Bochumer Wissenschaftler Dipl.-Ing. Mark Budde entwickelt. Der Algorithmus kommt ohne großen Rechenaufwand aus und ermöglicht Geräten das Verstehen mehrerer Sprecher.
Bochum, 16.03.1999
Nr. 59
Handy versteht alles und jeden
Mensch-Maschine-Schnittstelle verbessert
Neues Spracherkennungssystem von der RUB preisgekrönt
Automatische Spracherkennung ist in aller Munde. Bereits jetzt kann man seinem Computer Briefe diktieren, ohne sie tippen zu müssen. In Zukunft werden viele neue Anwendungen hinzukommen, mit denen man z.B. den Fernseher und die Waschmaschine per mündlichem Befehl bedienen kann. Bei diesen neuen Anwendungen kommt es entscheidend darauf an, daß sie möglichst preisgünstig zur Verfügung gestellt werden können. Die entsprechenden Algorithmen gibt es schon lange, bisher hatten sie aber einen entscheidenden Nachteil: Sie konnten nur einen einzigen Sprecher nach einer langen Trainingsphase verstehen. Dipl.-Ing. Mark Budde hat einen neuen Algorithmus entwickelt, der ohne großen Rechenaufwand das Verstehen mehrerer Sprecher ermöglicht. Für seine Diplomarbeit "Sprecherabhängige und sprecherunabhängige Spracherkennung unter Verwendung eines gemeinsamen Spracherkennungsalgorithmus", die an der Fakultät für Elektrotechnik und Nachrichtentechnik der RUB (Lehrstuhl für Nachrichtentechnik, Prof. Dr. Hans Dieter Fischer) in Zusammenarbeit mit der Siemens AG entstanden ist, hat er einen der "Preise für Studierende 1998" erhalten. Das Verfahren wird inzwischen in der Praxis angewandt, z.B. im "Storyteller", einem interaktiven Kinderspielzeug.
Algorithmus abgewandelt
Systeme zur Erkennung einzelner Wörter, die immer derselbe Sprecher benutzt, sind heute schon im Einsatz, z. B. in Mobiltelefonen. Bisher war es aber unrentabel, Geräte zu bauen, die jeden verstehen können, weil ihr Rechen- und Speicheraufwand ungleich höher ist als der sprecherabhängiger Geräte. Dipl.-Ing. Budde hat in seiner Arbeit untersucht, wie man einen Algorithmus, der die sprecherabhängige Erkennung ermöglicht, so abwandeln kann, daß er auch unterschiedliche Stimmen ohne vorheriges individuelles Training versteht. Während der Benutzer von sprecherabhängigen Systemen dem Gerät die Wörter nacheinander antrainieren muß, nutzt das sprecherunabhängige System ein Clusterverfahren: Alle eingegebenen Trainingsdaten werden gleichzeitig betrachtet und dann mit Hilfe unterschiedlicher statistischer Methoden sortiert. Aus den geordneten Daten schließt das System auf repräsentative Wortmuster, denen es später "gehörte" Wörter zuordnet.
98 Prozent Erkennungsrate
Zur Unterscheidung ähnlich klingender Wörter hat Dipl.-Ing. Budde dem System zur sprecherunabhängigen Spracherkennung zwei Verfahren hinzugefügt: es clustert akustisch gleiche Wortteile verschiedener Wörter gemeinsam und verschiebt im Training solche Muster, die nah an der Grenze zweier Wortklassen liegen, zu der zutreffenderen Wortklasse hin. So konnte er die Unterscheidbarkeit optimieren. Versprecher beim Training und Hintergrundgeräusche filtert das System automatisch aus den zu clusternden Daten heraus. Bei einem Wortschatz von 20 Wörtern, die von verschiedenen Sprechern geäußert wurden, erreicht es so eine Erkennungsrate von 98 Prozent.
Beispiele aus der praktischen Anwendung
Aufgrund dieses guten Ergebnisses hat das neue System schon in der Praxis Anwendung gefunden: "Speac!" ist ein Spracherkennungsmodul, das universell einsetzbar ist: z. B. in Haushaltsgeräten, Telefonen, Fernbedienungen der Unterhaltungselektronik und in Kinderspielzeug. Da gibt es beispielsweise den "Storyteller", eine Art interaktiver Geschichtenerzähler. Er hat nur noch einen Ein-/Ausschalter und einen Lautstärkeregler. Anders als bei einem Kassettenrecorder kann der Benutzer dem Gerät, das nicht größer ist als ein Gameboy, alle anderen Befehle mündlich erteilen. So bestimmt er selbst den Weg durch das Menü. Infos zu "Speac!", dem Storyteller und anderen Sprachanwendungen gibt es unter http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...
Weitere Informationen
Dipl-Ing. Mark Budde, Siemens AG, Man-Machine Cooperation, ZT IK 5 Tel. 089/636-46272, Fax. -40153, E-Mail: Mark.Budde@mchp.siemens.de,
Prof. Dr. Hans Dieter Fischer, Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik, Lehrstuhl für Nachrichtentechnik, Universitätsstr. 150, 44780 Bochum, Tel. 0234/700-2877, -3063, Fax. 0234/7094-100,
E-Mail: sekretariat@nt.ruhr-uni-bochum.de
http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...
Merkmale dieser Pressemitteilung:
Elektrotechnik, Energie, Informationstechnik, Medien- und Kommunikationswissenschaften
überregional
Forschungsergebnisse
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).