idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
16.03.1999 14:41

Preiswerte sprecherunabhängige Spracherkennung für technische Geräte

Dr. Josef König Dezernat Hochschulkommunikation
Ruhr-Universität Bochum

    Einen neuen Algorithmus für die Spracherkennung hat der Bochumer Wissenschaftler Dipl.-Ing. Mark Budde entwickelt. Der Algorithmus kommt ohne großen Rechenaufwand aus und ermöglicht Geräten das Verstehen mehrerer Sprecher.

    Bochum, 16.03.1999
    Nr. 59

    Handy versteht alles und jeden
    Mensch-Maschine-Schnittstelle verbessert
    Neues Spracherkennungssystem von der RUB preisgekrönt

    Automatische Spracherkennung ist in aller Munde. Bereits jetzt kann man seinem Computer Briefe diktieren, ohne sie tippen zu müssen. In Zukunft werden viele neue Anwendungen hinzukommen, mit denen man z.B. den Fernseher und die Waschmaschine per mündlichem Befehl bedienen kann. Bei diesen neuen Anwendungen kommt es entscheidend darauf an, daß sie möglichst preisgünstig zur Verfügung gestellt werden können. Die entsprechenden Algorithmen gibt es schon lange, bisher hatten sie aber einen entscheidenden Nachteil: Sie konnten nur einen einzigen Sprecher nach einer langen Trainingsphase verstehen. Dipl.-Ing. Mark Budde hat einen neuen Algorithmus entwickelt, der ohne großen Rechenaufwand das Verstehen mehrerer Sprecher ermöglicht. Für seine Diplomarbeit "Sprecherabhängige und sprecherunabhängige Spracherkennung unter Verwendung eines gemeinsamen Spracherkennungsalgorithmus", die an der Fakultät für Elektrotechnik und Nachrichtentechnik der RUB (Lehrstuhl für Nachrichtentechnik, Prof. Dr. Hans Dieter Fischer) in Zusammenarbeit mit der Siemens AG entstanden ist, hat er einen der "Preise für Studierende 1998" erhalten. Das Verfahren wird inzwischen in der Praxis angewandt, z.B. im "Storyteller", einem interaktiven Kinderspielzeug.

    Algorithmus abgewandelt

    Systeme zur Erkennung einzelner Wörter, die immer derselbe Sprecher benutzt, sind heute schon im Einsatz, z. B. in Mobiltelefonen. Bisher war es aber unrentabel, Geräte zu bauen, die jeden verstehen können, weil ihr Rechen- und Speicheraufwand ungleich höher ist als der sprecherabhängiger Geräte. Dipl.-Ing. Budde hat in seiner Arbeit untersucht, wie man einen Algorithmus, der die sprecherabhängige Erkennung ermöglicht, so abwandeln kann, daß er auch unterschiedliche Stimmen ohne vorheriges individuelles Training versteht. Während der Benutzer von sprecherabhängigen Systemen dem Gerät die Wörter nacheinander antrainieren muß, nutzt das sprecherunabhängige System ein Clusterverfahren: Alle eingegebenen Trainingsdaten werden gleichzeitig betrachtet und dann mit Hilfe unterschiedlicher statistischer Methoden sortiert. Aus den geordneten Daten schließt das System auf repräsentative Wortmuster, denen es später "gehörte" Wörter zuordnet.

    98 Prozent Erkennungsrate

    Zur Unterscheidung ähnlich klingender Wörter hat Dipl.-Ing. Budde dem System zur sprecherunabhängigen Spracherkennung zwei Verfahren hinzugefügt: es clustert akustisch gleiche Wortteile verschiedener Wörter gemeinsam und verschiebt im Training solche Muster, die nah an der Grenze zweier Wortklassen liegen, zu der zutreffenderen Wortklasse hin. So konnte er die Unterscheidbarkeit optimieren. Versprecher beim Training und Hintergrundgeräusche filtert das System automatisch aus den zu clusternden Daten heraus. Bei einem Wortschatz von 20 Wörtern, die von verschiedenen Sprechern geäußert wurden, erreicht es so eine Erkennungsrate von 98 Prozent.

    Beispiele aus der praktischen Anwendung

    Aufgrund dieses guten Ergebnisses hat das neue System schon in der Praxis Anwendung gefunden: "Speac!" ist ein Spracherkennungsmodul, das universell einsetzbar ist: z. B. in Haushaltsgeräten, Telefonen, Fernbedienungen der Unterhaltungselektronik und in Kinderspielzeug. Da gibt es beispielsweise den "Storyteller", eine Art interaktiver Geschichtenerzähler. Er hat nur noch einen Ein-/Ausschalter und einen Lautstärkeregler. Anders als bei einem Kassettenrecorder kann der Benutzer dem Gerät, das nicht größer ist als ein Gameboy, alle anderen Befehle mündlich erteilen. So bestimmt er selbst den Weg durch das Menü. Infos zu "Speac!", dem Storyteller und anderen Sprachanwendungen gibt es unter http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...

    Weitere Informationen

    Dipl-Ing. Mark Budde, Siemens AG, Man-Machine Cooperation, ZT IK 5 Tel. 089/636-46272, Fax. -40153, E-Mail: Mark.Budde@mchp.siemens.de,

    Prof. Dr. Hans Dieter Fischer, Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik, Lehrstuhl für Nachrichtentechnik, Universitätsstr. 150, 44780 Bochum, Tel. 0234/700-2877, -3063, Fax. 0234/7094-100,
    E-Mail: sekretariat@nt.ruhr-uni-bochum.de


    Weitere Informationen:

    http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/ohneflash/def...


    Bilder

    Merkmale dieser Pressemitteilung:
    Elektrotechnik, Energie, Informationstechnik, Medien- und Kommunikationswissenschaften
    überregional
    Forschungsergebnisse
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).