idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Medienpartner:
Wissenschaftsjahr


Teilen: 
24.01.2006 10:03

Computer schürfen nach den "Goldnuggets" im Textuniversum

Axel Burchardt Stabsstelle Kommunikation/Pressestelle
Friedrich-Schiller-Universität Jena

    EU fördert internationales Forschungsprojekt von Computerlinguisten der Universität Jena

    Jena (24.01.06) In den Forschungslabors der Welt werden heute in jeder Minute eine neue chemische Formel gewonnen, alle drei Minuten ein neuer physikalischer Zusammenhang aufgedeckt und im Fünf-Minuten-Rhythmus neue medizinische Erkenntnisse gewonnen - und publiziert. Forscher der Max-Planck-Gesellschaft haben ermittelt, dass jährlich rund vier Millionen Fachbeiträge veröffentlicht werden, also 20.000 pro Arbeitstag. Selbst wenn nur ein Bruchteil davon den Bereich der Biologie betrifft, dann ist "kein Biologe mehr in der Lage, alle für sein Fachgebiet relevanten Arbeiten zu lesen", ist Prof. Dr. Udo Hahn von der Universität Jena überzeugt. Die Fülle an immer neuen Erkenntnissen, die die eigene Forschungstätigkeit betreffen, sei jedoch nur ein Problem für jeden Wissenschaftler. "Will er über den Tellerrand des eigenen Spezialgebietes schauen, dann versteht er manche Texte vielleicht nicht richtig, weil in den einzelnen Disziplinen häufig dem Leser unbekannte Spezialtermini gebraucht werden", erklärt der Computerlinguist vom Institut für Germanistische Sprachwissenschaft. Es könne sogar vorkommen, dass Biologen an denselben Proteinen forschen, ohne voneinander zu wissen, weil die Proteine in verschiedenen Labors unterschiedliche Namen haben. Doch hier wollen Prof. Hahn und sein Forscherteam Abhilfe schaffen.

    Sie wollen ein Computerprogramm entwickeln, das biologische Fachtexte nach bestimmten Kriterien analysiert, Wichtiges von Unwichtigem trennt und Forscher wie industrielle Entwickler - etwa aus der Biotech- oder Pharmaindustrie - mit automatisch gewonnenem, hochaktuellem Wissen versorgt. "Wir reden dabei auch vom biologischen Text-Mining", erläutert Hahn. De facto lassen die Jenaer Computerlinguisten ihre intelligenten Rechenmaschinen in den Texten nach den "Goldnuggets" schürfen und programmieren die Computer so, dass sie die gesuchten Informationen automatisch finden.

    Die Computerlinguisten nutzen dafür ihr Fachwissen und sprachwissenschaftliche Methoden, um die natürliche Sprache - bei den Biologen ist dies fast ausschließlich Englisch - mit dem Computer zu bearbeiten. "Als Sprachwissenschaftler haben wir einerseits das Wissen, wie man Texte formuliert und inhaltlich strukturiert", sagt Prof. Hahn. Andererseits sei Sprache ein berechenbarer Prozess. Mit Hilfe von Methoden aus der Informatik könnten ihre Regeln und Konzepte formal und mathematisch präzise analysiert werden. Dann ist selbst das "Fachchinesisch" einer Wissenschaftsdisziplin für den Computer durchschaubar.

    "Allerdings verstehen reine Computerlinguisten nur wenig von den biologischen Inhalten der analysierten Texte, dafür brauchen sie einen Vermittler", räumt Prof. Hahn ein. Deshalb gehören auch Biologen zu seinem Team, die den Sprachwissenschaftlern und Informatikern auch erklären sollen, "wie Biologen was verstehen". Unterstützung erhoffe er sich zudem von der in Jena sehr gut entwickelten Biotechnologie-Szene, sagt er. Mit der Medizin gebe es ebenfalls viele Berührungspunkte, da diese heute immer mehr in die Biologie hinein reiche.

    Mediziner profitieren im Übrigen bereits von den Arbeiten der Computerlinguisten. An der Freiburger Universität, von der Prof. Hahn 2004 auf den Lehrstuhl für Germanistische Sprachwissenschaft/Computerlinguistik nach Jena wechselte, hat er schon gemeinsam mit Medizininformatikern ein System für die automatische Bearbeitung von elektronischen Patientenakten entwickelt.

    Für sein neues Jenaer Forschungsprojekt "BOOTStrep" (Bootstrapping of Ontologies and Terminologies Strategic Research Project) hat die Europäische Union (EU) jetzt für vorerst drei Jahre eine Unterstützung von 3,6 Millionen Euro bewilligt. An dem anspruchsvollen Vorhaben, das am 1. April offiziell starten wird, sind Wissenschaftler aus England, Italien, Frankreich, Singapur und Deutschland beteiligt. Auch Biologen aus diesen Ländern sollen von dem mehrsprachig angelegten Programm profitieren.

    Kontakt:
    Prof. Dr. Udo Hahn
    Institut für Germanistische Sprachwissenschaft der Universität Jena
    Fürstengraben 30, 07743 Jena
    Tel.: 03641 / 944320
    Fax: 03641 / 944321
    E-Mail: udo.hahn[at]uni-jena.de


    Merkmale dieser Pressemitteilung:
    Biologie, Ernährung / Gesundheit / Pflege, Informationstechnik, Medizin, Sprache / Literatur
    überregional
    Forschungsprojekte
    Deutsch


    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).