idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
26.10.2004 10:36

Was soll es bedeuten? Wie der Computer Texte besser verstehen lernt

Dr. Peter Saueressig Kommunikation
EML Research gGmbH

    Computerlinguisten bei EML Research stellen nutzerfreundliches digitales Werkzeug MMAX zur Annotation von Texten vor - Anwendungsfelder: Dokumentensuche und Wissensextraktion

    Der Computer leistet heutzutage viel. Aber die Bedeutung eines Textes kann er nicht verstehen, denn sonst könnte er uns mit einem Mausklick die Zusammenfassung eines Zeitungsartikels liefern. Computerlinguisten arbeiten daran, dass der Rechner das lernt. Sie trainieren ihn mit Texten, die von Hand mit linguistischer und anderer Information angereichert sind. Diese Anreicherung nennt man Annotation. Der Computer kann dann aus den annotierten Texten die Strukturen selbst nachbilden, indem er Regeln automatisch lernt.

    Um das mühsame Geschäft der Annotation zu erleichtern und besser reproduzierbar zu machen, haben Wissenschaftler am Forschungsinstitut EML Research in Heidelberg eine spezielle Software entwickelt. Das digitale Werkzeug mit dem Namen "MMAX" wurde kürzlich auf einer internationalen Konferenz in Barcelona dem Fachpublikum vorgestellt. Bislang arbeiten schon fünfzehn Forschungsteams in Europa und den USA mit dem Annotationstool aus Heidelberg.

    MMAX ist plattformunabhängig, speichersparend und nutzerfreundlich (http://mmax.eml-research.de). Im Gegensatz zu bisherigen Annotationstools kann der Wissenschaftler das Aussehen und die Art der zu vergebenden Kennzeichnungen anpassen, ohne das Programm selbst ändern zu müssen. MMAX integriert aber auch bereits annotierte Texte. Außerdem unterstützt die Software die Annotation bei der Lösung verschiedener linguistischer Probleme, so bei der Analyse eines Zweiergesprächs oder bei der Darstellung von Bezügen innerhalb eines Textes. Ein Beispiel: In den ersten beiden Sätzen dieses Textes wird der Begriff "der Computer" in einer anderen Form, nämlich als "er", wieder aufgenommen. Solche Verweise, sogenannte Anaphern, stellen die maschinelle Sprachverarbeitung bislang vor große Probleme.

    "MMAX unterstützt sowohl die sprachwissenschaftliche Forschung als auch die maschinelle Sprachverarbeitung", fasst Dr. Michael Strube, Leiter der Forschungsgruppe Natural Language Processing bei EML Research, zusammen.
    Anwendungsgebiete, in denen mit MMAX annotierte Daten verwendet werden können, schließen auch die Extraktion von Wissen aus biologischen Texten und Datenbanken sowie das Aufspüren von Dokumenten (document retrieval) ein.

    Die EML Research gGmbH (www.eml-research.de) ist ein privates Forschungsinstitut für Grundlagenforschung in der angewandten Informatik. Ein Schwerpunkt der Forschung liegt in der Computerlinguistik. Die Forscher arbeiten eng mit Universitäten im In- und Ausland zusammen zusammen. Die EML Research gGmbH bearbeitet hauptsächlich Forschungsprojekte der Klaus Tschira Stiftung gGmbH (KTS) (www.kts.villa-bosch.de). KTS und EML Research haben ihren Sitz in der Heidelberger Villa Bosch, dem ehemaligen Wohnsitz des Nobelpreisträgers Carl Bosch.

    Für weitere Informationen wenden Sie sich bitte an:

    Dr. Peter Saueressig
    EML Research gGmbH
    Presse- und Öffentlichkeitsarbeit
    Tel: +49-6221-533-245
    Fax: +49-6221-533-198
    peter.saueressig@eml-research.de

    Wissenschaftliche Ansprechpartner:
    Dr. Michael Strube
    Leiter der Forschungsgruppe Natural Language Processing
    EML Research gGmbH
    Tel: +49-6221-533-243
    Fax: +49-6221-533-298

    Christoph Müller
    Natural Language Processing
    EML Research gGmbH
    Tel: +49-6221-533-238
    Fax: +49-6221-533-298


    Weitere Informationen:

    http://mmax.eml-research.de


    Bilder

    Merkmale dieser Pressemitteilung:
    Informationstechnik, Sprache / Literatur
    überregional
    Forschungsergebnisse
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).