idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
09/13/2010 10:37

Saarbrücker Informatiker durchsuchen Milliarden Datensätze mit „guten Trojanern“

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes
Universität des Saarlandes

    Soziale Netzwerke im Internet, Suchmaschinen-Anbieter, digitale Archive und viele weltweit tätige Unternehmen verfügen über gigantische Datenbanken. Um diese Daten schnell zu durchsuchen, verwenden Firmen wie Facebook, Ebay, Yahoo und Twitter das frei verfügbare Programm Hadoop -- eine Variante des von Google erfundenen MapReduce. Viele Datenbank-Experten kritisieren jedoch, dass damit eine effiziente Datensuche mit komplexen Anforderungen nicht möglich ist. Saarbrücker Informatiker haben jetzt ein neues Verfahren, genannt Hadoop++, entwickelt. Damit können auch Hadoop-Nutzer riesige Datenmengen wesentlich schneller durchsuchen.

    Das neue System ist bis zu zwanzigmal effizienter als die herkömmliche Verarbeitung mit Hadoop.

    Internetfirmen verarbeiten täglich Datenmengen in Höhe von mehreren Millionen Gigabyte (Petabyte). Um diese effektiv zu durchsuchen, hat Google das Programmiermodell MapReduce entwickelt. Dabei werden Daten in kleine Teile zerlegt und dann zur gleichzeitigen Verarbeitung auf unterschiedliche Rechner verteilt. Das als Open-Source-Produkt angebotene Hadoop-Programm basiert auf der Idee von MapReduce. Als Google sich vor einigen Monaten MapReduce patentrechtlich schützen ließ, erhielt Hadoop davon eine freie Lizenz und kann somit auch weiterhin in Unternehmen kostenlos eingesetzt werden. „Datenbank-Spezialisten, die es gewohnt sind mit der Programmiersprache SQL zu arbeiten, betrachten MapReduce aber als großen Rückschritt in die Datenbank-Steinzeit“, erläutert Jens Dittrich, Professor für Informationssysteme der Universität des Saarlandes. „Viele Erkenntnisse aus der Datenbankforschung der vergangenen Jahrzehnte sind bei MapReduce einfach über Bord geworfen worden. Zwar kann man mit Hilfe von MapReduce riesige Datenmengen unkompliziert durchsuchen, aber man tut dies nicht besonders effizient.“

    Dass das Google-Programmiermodell dennoch eine so weite Verbreitung gefunden hat, liegt nach Meinung von Jens Dittrich an einem entscheidenden Vorteil: „Der Nutzer muss weder eine komplizierte Datenbanksprache noch ein Datenmodell lernen. Außerdem ist die Administration von Hadoop sehr einfach. Auch mit geringen Computerkenntnissen kann man damit auf einfache Weise viele Milliarden Datensätze parallel auf mehreren Servern durchsuchen.“ Wer jedoch komplizierte Suchanfragen in Hadoop nutzen will, stößt schnell an Leistungsgrenzen. „Hadoop ist im Vergleich zu modernen Datenbanksystemen einfach zu langsam.“ Der Saarbrücker Forscher hat daher mit seinem Team das neue System Hadoop ++ entwickelt, das die Schwächen des bisherigen Programms beseitigt.

    Hadoop++ funktioniert dabei ähnlich wie ein trojanisches Pferd. Die Forscher schleusen an geeigneten Stellen von Hadoop heimlich zusätzlichen Code ein, der für eine effizientere Ausführung sorgt. Das zugrundeliegende System Hadoop bleibt dabei unverändert, es sind also keine aufwändigen Änderungen am Code von Hadoop notwendig. Alle Änderungen erfolgen durch sogenannte Nutzerfunktionen (user-defined functions). Das neue Programm folgt damit einem ähnlichen Ansatz wie „Trojaner“. Dies sind Computerviren, die sich heimlich in Programmen verstecken, um ein Computersystem massiv zu schädigen. Im Gegensatz dazu wird in Hadoop++ allerdings der eingeschleuste Code dazu genutzt, das zugrundeliegende System - in diesem Fall Hadoop - zu verbessern. „Es handelt sich sozusagen um einen guten Trojaner“, betont Informatik-Professor Jens Dittrich.

    Die Forschungsergebnisse wird Jens Dittrich auf einer der weltweit wichtigsten Konferenzen für Datenbanken vorstellen, der „International Conference on Very Large Data Bases“ (VLDB 2010), die vom 13. bis 17. September in Singapur stattfindet.

    Hintergrund

    Die Diskussion um Stärken und Schwächen von MapReduce und Hadoop, die vor allem unter amerikanischen Informatik-Professoren geführt wurde, kann in folgendem Artikel und Blog-Eintrag nachgelesen werden. Das darin erwähnte System von Daniel Abadi von der Yale University weist nach genauer Analyse von Professor Jens Dittrich aber viele Schwächen auf und konnte nicht die gewünschte „Versöhnung“ der Datenbanksysteme einläuten.
    http://www.heise.de/newsticker/meldung/HadoopDB-versoehnt-SQL-mit-Map-Reduce-668...
    http://databasecolumn.vertica.com/database-innovation/mapreduce-a-major-step-bac...

    Fragen beantwortet:
    Jens Dittrich
    Professor für Informationssysteme der Universität des Saarlandes
    Tel. 0681 302 70141

    Hinweis für Hörfunk-Journalisten: Sie können Telefoninterviews in Studioqualität mit Wissenschaftlern der Universität des Saarlandes führen, über Rundfunk-ISDN-Codec. Interviewwünsche bitte an die Pressestelle (0681/302-3610) richten.


    More information:

    http://infosys.cs.uni-saarland.de/hadoop++.php
    http://hadoop.apache.org/
    http://www.mapreduce.org/
    http://www.vldb2010.org
    http://www.uni-saarland.de/pressefotos


    Images

    Jens Dittrich, Professor für Informationssysteme der Universität des Saarlandes
    Jens Dittrich, Professor für Informationssysteme der Universität des Saarlandes
    Universität des Saarlandes
    None

    Saarbrücker Informatiker um Professor Jens Dittrich können Suchmaschinen und Datenbanken jetzt wesentlich schneller durchsuchen.
    Saarbrücker Informatiker um Professor Jens Dittrich können Suchmaschinen und Datenbanken jetzt wesen ...
    bellhäuser - das bilderwerk
    None


    Criteria of this press release:
    Information technology
    transregional, national
    Research projects, Research results
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).