Auf dem Weg zur intelligenten Suchmaschine
Jena (04.12.07) Eine Flut von Informationen prasselt tagtäglich auf Wissenschaftler ein. Angesichts dieser Nachrichtenfülle suchen Forschungslabore weltweit nach Wegen, relevante Informationen von Rechnern finden zu lassen. An dieser Aufgabe arbeitet auch der Computerlinguist Prof. Dr. Udo Hahn von der Friedrich-Schiller-Universität Jena. Ihm ist jetzt der "IBM UIMA Innovation Award" zuerkannt worden, ein Wissenschaftspreis, der seit 2006 jährlich vom IT-Unternehmen IBM an wenige Wissenschaftler weltweit vergeben wird. Diese Experten arbeiten an dem Software-Konzept UIMA (Unstructured Information Management Architecture), das ist eine offene Architektur für Analyse und Management großer, unstrukturierter Datenmengen. "Unstrukturiert" meint hier, dass Computer keinen unmittelbaren Zugang zu den Inhalten von Texten, gesprochener Sprache, Musik, Bildern oder Filmen haben. Mit Hilfe der UIMA-Plattform können Rechner aber auf effektive Weise in die Lage versetzt werden, solche Inhalte automatisch zu erschließen.
Das Ziel dieser Entwicklungsarbeiten ist eine intelligente Suchmaschine, die aus einer großen Zahl von Dokumenten die wirklich wichtigen Fakten herausziehen soll. Dabei wird angestrebt, einmal erarbeitete Programme, sogenannte Module, wieder zu verwenden anstatt sie für jede Anwendung aufs Neue zu entwerfen und zu programmieren. "UIMA ist ein innovativer Weg, für komplexe Systeme der Sprachverarbeitung eine übersichtliche Architektur zu definieren, die eine inhaltliche Analyse von Texten erlaubt", sagt Udo Hahn. Anders als herkömmliche Suchmaschinen (wie Google) fahndet das Jenaer System nicht nach starren Zeichenfolgen, sondern es kann oberflächlich verschiedene, aber inhaltlich gleiche oder stark verwandte Wörter - zum Beispiel "krank", "kranken", "Krankheit", "kränkeln" - und Aussagen auf ihren gemeinsamen Bedeutungskern reduzieren und die so aufbereiteten Informationen Wissenschaftlern zur zielgerichteten Suche anbieten.
Der praktische Nutzen liegt auf der Hand: Die größte biomedizinische Literatur-Datenbank der Welt etwa enthält 17 Millionen Einträge und täglich kommen hunderte von neuen Hinweisen hinzu. Kein Mensch hätte die Zeit, die für ihn wichtigsten Texte auszusuchen und durchzusehen. Die Software-Plattform UIMA arbeitet im Hintergrund solcher intelligenter Suchmaschinen und macht die Datenflut für den Anwender beherrschbarer.
Ein zweiter mit dem Preis bedachter Aspekt ist der Aufbau einer großen computerlinguistischen Software-Bibliothek, die den gesamten Analysezyklus bei der automatischen Sprachverarbeitung abdeckt. "Diese Bibliothek ist wie ein großer Schrank mit vielen Schubfächern, wo in jedem dieser Fächer alternative Programme für die Lösung eines Teilproblems bei der Sprachanalyse aufbewahrt werden. Je nach Einsatzzweck ziehen wir die passende Software aus dem Schubfach", sagt Prof. Hahn.
Der "IBM UIMA Innovation Award" wird im Januar 2008 überreicht werden. Das Preisgeld von 24.000 US-Dollar wird zweckgebunden verwendet, um die Forschung in der Software-Schmiede der Jenaer Computerlinguisten weiterzuführen.
Kontakte:
Prof. Dr. Udo Hahn
Lehrstuhl für Angewandte Germanistische Sprachwissenschaft/
Computerlinguistik der Friedrich-Schiller-Universität Jena
Fürstengraben 30, 07743 Jena
Tel.: 03641 / 944320
E-Mail: Udo.Hahn@uni-jena.de
IBM Deutschland GmbH
Corporate Communications/University Relations
Christian Schäfer
Pascalstraße 100
70569 Stuttgart
Tel.: 0711 / 785-4815
E-Mail: schaefc@de.ibm.com
Criteria of this press release:
Information technology, Language / literature
transregional, national
Personnel announcements, Research projects
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).