idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
26.02.2014 08:51

Bundeskanzlerin oder Trainer? Software findet zu mehrdeutigen Namen in Texten die richtige Person

Melanie Löw Pressestelle der Universität des Saarlandes
Universität des Saarlandes

    Beim Lesen des Nachnamens „Merkel“ wissen selbst Menschen nicht, ob nun die Bundeskanzlerin Angela Merkel oder der berühmte Fußballtrainer Max Merkel gemeint ist. Informatiker des Saarbrücker Max-Planck-Instituts für Informatik haben nun eine Software entwickelt, die in Texten die Mehrdeutigkeit von Namen automatisch auflösen kann. Diese Zuordnung von Namen auf eindeutige Objekte wie Personen und Orte verbessert nicht nur Suchmaschinen und Empfehlungssysteme. Sie hilft auch dabei, riesige Textmengen effizient zu analysieren. Während der Computermesse Cebit präsentieren die Forscher ihr Programm zum ersten Mal am saarländischen Forschungsstand (Halle 9, Stand E13).

    Wenn ein Name mehrdeutig ist und in keinem Zusammenhang steht, tun sich auch Menschen mit der genauen Zuordnung schwer. Bei „Müller ist Torschützenkönig!“ ist nicht klar, wer gemeint ist – der „Bomber der Nation“ Gerd Müller, Fußball-Weltmeister im Jahr 1974, oder Thomas Müller, immerhin Torschützenkönig während der Weltmeisterschaft 2010. Die Suche im Netz macht das noch anstrengender. Bisher erkennen die Suchmaschinen zwar Zeichenketten, wie „Angela Merkel“, lassen aber Erwähnungen wie „Bundeskanzlerin“ oder „Deutschlands First Lady“ ganz unbeachtet. Noch schlimmer: Bei der Eingabe von „Merkel“ liefern sie als Ergebnis auch Informationen zu vielen anderen Personen, die den gleichen Nachnamen besitzen.

    Forscher am Max-Planck-Institut für Informatik haben nun ein Programm entwickelt, das die Mehrdeutigkeit von Namen in Texten selbstständig auflöst, indem es diese geschickt mit Hilfe des Online-Nachschlagewerkes Wikipedia analysiert. Dazu bildet ihre Software namens AIDA zwischen den Erwähnungen im Text und den dazu potenziell passenden Personen und Orten eine Verknüpfung. „Je mehr Verweise in Wikipedia vom Namen auf die jeweilige Person verlinken, je mehr Wörter sich aus deren Wikipedia-Artikel im Text der Erwähnung wiederfinden, desto höher wird die Verbindung gewertet. Diese Wertungen prüft AIDA und bestimmt schließlich die höchste als eindeutiges Namen-Objekt-Paar“, erläutert Johannes Hoffart, der AIDA am Max-Planck-Institut für Informatik mitentwickelt hat. Um die neuartige Technik zu demonstrieren, haben sie bereits eine darauf aufbauende Suchmaschine entwickelt. Diese ermöglicht es nicht nur, die Suche nach Buchstabenfolgen mit der Suche nach eindeutigen Objekten wie Personen und Orten zu kombinieren, sondern sich auch Treffer für eine bestimmte Kategorie angeben zu lassen. So ergibt die Anfrage „Angela Merkel + Umweltorganisationen + Energiewende“ Texte, die von der Bundeskanzlerin im Kontext von Umweltorganisationen wie „Greenpeace“ und der Energiewende handeln.

    Derzeit arbeiten die Saarbrücker Informatiker mit der Deutschen Nationalbibliothek und ihren Standorten in Leipzig und Frankfurt am Main zusammen. Auf deren Textkorpus lassen sie AIDA los, um die Schlagwortsuche mit der Suche nach eindeutigen Objekten zu verknüpfen. „Die Treffer sind dann wesentlich genauer“, sagt Hoffart.

    „Auf diese Weise können wir aber nicht nur bessere Suchmaschinen bauen, sondern auch auf effiziente Weise riesige Textmengen für den Computer so aufbereiten, dass er sie fast wie ein Mensch versteht“, erklärt Gerhard Weikum, wissenschaftlicher Direktor am Max-Planck-Institut für Informatik in Saarbrücken. Das eröffne auch neue Perspektiven für automatisch generierte Empfehlungen und die Analyse von Datensätzen, so Weikum, der am Max-Planck-Institut die Abteilung für Datenbanken und Informationssysteme leitet und am Saarbrücker Exzellenzcluster für „Multimodal Computing and Interaction“ forscht. „Wer ein Fan des Trainers ist, der bekommt eines seiner Bücher angeboten, wer sich jedoch nur für die gleichnamige Kanzlerin interessiert, wird dagegen auf Bücher verwiesen, die sich mit ihr beschäftigen“, nennt Weikum als Beispiel.

    Hintergrund zur Saarbrücker Informatik an der Universität des Saarlandes
    Den Kern der Saarbrücker Informatik bildet die Fachrichtung Informatik. In unmittelbarer Nähe forschen auf dem Campus sieben weitere weltweit renommierte Forschungsinstitute. Neben den beiden Max-Planck-Instituten für Informatik und Softwaresysteme sind dies das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Zentrum für Bioinformatik, das Intel Visual Computing Institute, das Center for IT-Security, Privacy und Accountability (CISPA) und der Exzellenzcluster „Multimodal Computing and Interaction“.

    Weitere Informationen:
    Projektseite: http://www.mpi-inf.mpg.de/yago-naga/aida/

    Online-Demonstrator: https://gate.d5.mpi-inf.mpg.de/webaida/

    Fragen beantwortet:
    Johannes Hoffart
    Datenbanken und Informationssysteme
    Max-Planck-Institut für Informatik
    Tel: +49 681 9325-5028
    E-Mail: jhoffart@mpi-inf.mpg.de

    Redaktion:
    Gordon Bolduan
    Wissenschaftskommunikation
    Kompetenzzentrum Informatik Saarland
    Tel.: +49(0)681 302-70741
    E-Mail: bolduan(at)mmci.uni-saarland.de

    Hinweis für Hörfunk-Journalisten: Sie können Telefoninterviews in Studioqualität mit Wissenschaftlern der Universität des Saarlandes führen, über Rundfunk-Codec (IP-Verbindung mit Direktanwahl oder über ARD-Sternpunkt 106813020001).


    Bilder

    Mit der neuen Methode lassen sich nicht nur Begriffe, sondern auch gezielt Personen und Kategorien suchen.
    Mit der neuen Methode lassen sich nicht nur Begriffe, sondern auch gezielt Personen und Kategorien s ...
    Grafik: Johannes Hoffart/MPI
    None


    Merkmale dieser Pressemitteilung:
    Journalisten
    Informationstechnik
    überregional
    Forschungsergebnisse, Forschungsprojekte
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).