Neuer Sonderforschungsbereich für die Datenanalyse
Ab dem 1. Juli 2020 fördert die Deutsche Forschungsgemeinschaft (DFG) den neuen Sonderforschungsbereich (SFB) „FONDA – Grundlagen von Workflows für die Analyse großer naturwissenschaftlicher Daten“. Zu den beteiligten Institutionen gehören auch zwei Fachgebiete der Technischen Universität Berlin: Distributed and Operating Systems von Prof. Dr. Odej Kao sowie Database Systems and Information Management von Prof. Dr. Volker Markl. Die Sprecherschaft des ersten Berliner SFB in der Informatik liegt bei Prof. Dr. Ulf Leser von der Humboldt-Universität zu Berlin.
„Die Untersuchung vieler aktueller Fragestellungen der Naturwissenschaften basiert auf der Auswertung großer Datenbestände – Big Data – mit automatischen Analysewerkzeugen, deren Zusammenspiel in sogenannten Datenanalyseworkflows festgelegt wird“, so Volker Markl. „Der Begriff ‘Big Data‚ umschreibt dabei eine herausfordernde Datenanalyse, weil die Datensätze zum einen sehr groß und zum zweiten heterogen sind. Hinzu kommt, dass sie sich im Laufe der Zeit ändern oder schnell wachsen können.“
„Eine effiziente Analyse solcher Daten erfordert sowohl parallele als auch verteilte Rechensysteme, die Einbeziehung fortschrittlicher statistischer Methoden sowie geeignete Mittel zur Durchführung der Datenintegration, -normalisierung und -filterung. Die Abfolge dieser Verarbeitungsschritte wird als Data Analysis Workflows bezeichnet“, weiß Odej Kao. Beispiele für solche Data Analysis Workflows (DAW) gehören mittlerweile zu den alltäglichen Werkzeugen in zahlreichen wissenschaftlichen Disziplinen. Dazu zählen eine Gen-Sequenzierung in der Biotechnologie, die Auswertung von Satellitenbildern in der Geowissenschaft oder auch die Beobachtung von biologischen Prozessen mit Mikroskopen. Die DAW setzen das Wissen der einzelnen Schritte in entsprechende Verarbeitungsketten um, so dass große Datenmengen effizient, nachvollziehbar und reproduzierbar ausgewertet und neue wissenschaftliche Erkenntnisse generiert werden können.
Der dafür notwendige Entwicklungsaufwand ist nach wie vor sehr hoch, da die Entwicklung Detailkenntnisse über moderne Computerinfrastrukturen, komplexe Hardware (Computercluster, Multi-Core-Server, Hochleistungsrechnersysteme), Software (Ressourcenmanager, Scheduler, Dateisysteme), Programmiersprachen sowie Datenanalysewerkzeuge erfordert. Diese Kenntnisse sind nicht in allen wissenschaftlichen Bereichen vorhanden, wodurch sehr viel Entwicklungszeit abseits der eigentlichen Forschung zum Beispiel für Datenanalyse und Erkenntnisgewinn benötigt wird. „Daher ist ein interdisziplinärer Ansatz bei diesem Thema entscheidend“, so Odej Kao. Der SFB „FONDA“ will diese Lücke schließen und Techniken, Verfahren und Werkzeuge erforschen, die eine Steigerung der Produktivität von Wissenschaftler*innen bei der Erstellung und Anwendung von Datenanalyseworkflows ermöglichen.
Weitere Informationen erteilen Ihnen gern:
Prof. Dr. Odej Kao
TU Berlin
Fachgebiet Distributed and Operating Systems
Tel.: 030 314-25154
E-Mail: odej.kao@tu-berlin.de
Prof. Dr. Volker Markl
TU Berlin
Fachgebiet Database Systems and Information Management
Tel.: 030 314-25553
E-Mail: volker.markl@tu-berlin.de
Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler
Informationstechnik
überregional
Forschungsprojekte, Wissenschaftspolitik
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).