Neuer Sonderforschungsbereich für die Datenanalyse
Ab dem 1. Juli 2020 fördert die Deutsche Forschungsgemeinschaft (DFG) den neuen Sonderforschungsbereich (SFB) „FONDA – Grundlagen von Workflows für die Analyse großer naturwissenschaftlicher Daten“. Zu den beteiligten Institutionen gehören auch zwei Fachgebiete der Technischen Universität Berlin: Distributed and Operating Systems von Prof. Dr. Odej Kao sowie Database Systems and Information Management von Prof. Dr. Volker Markl. Die Sprecherschaft des ersten Berliner SFB in der Informatik liegt bei Prof. Dr. Ulf Leser von der Humboldt-Universität zu Berlin.
„Die Untersuchung vieler aktueller Fragestellungen der Naturwissenschaften basiert auf der Auswertung großer Datenbestände – Big Data – mit automatischen Analysewerkzeugen, deren Zusammenspiel in sogenannten Datenanalyseworkflows festgelegt wird“, so Volker Markl. „Der Begriff ‘Big Data‚ umschreibt dabei eine herausfordernde Datenanalyse, weil die Datensätze zum einen sehr groß und zum zweiten heterogen sind. Hinzu kommt, dass sie sich im Laufe der Zeit ändern oder schnell wachsen können.“
„Eine effiziente Analyse solcher Daten erfordert sowohl parallele als auch verteilte Rechensysteme, die Einbeziehung fortschrittlicher statistischer Methoden sowie geeignete Mittel zur Durchführung der Datenintegration, -normalisierung und -filterung. Die Abfolge dieser Verarbeitungsschritte wird als Data Analysis Workflows bezeichnet“, weiß Odej Kao. Beispiele für solche Data Analysis Workflows (DAW) gehören mittlerweile zu den alltäglichen Werkzeugen in zahlreichen wissenschaftlichen Disziplinen. Dazu zählen eine Gen-Sequenzierung in der Biotechnologie, die Auswertung von Satellitenbildern in der Geowissenschaft oder auch die Beobachtung von biologischen Prozessen mit Mikroskopen. Die DAW setzen das Wissen der einzelnen Schritte in entsprechende Verarbeitungsketten um, so dass große Datenmengen effizient, nachvollziehbar und reproduzierbar ausgewertet und neue wissenschaftliche Erkenntnisse generiert werden können.
Der dafür notwendige Entwicklungsaufwand ist nach wie vor sehr hoch, da die Entwicklung Detailkenntnisse über moderne Computerinfrastrukturen, komplexe Hardware (Computercluster, Multi-Core-Server, Hochleistungsrechnersysteme), Software (Ressourcenmanager, Scheduler, Dateisysteme), Programmiersprachen sowie Datenanalysewerkzeuge erfordert. Diese Kenntnisse sind nicht in allen wissenschaftlichen Bereichen vorhanden, wodurch sehr viel Entwicklungszeit abseits der eigentlichen Forschung zum Beispiel für Datenanalyse und Erkenntnisgewinn benötigt wird. „Daher ist ein interdisziplinärer Ansatz bei diesem Thema entscheidend“, so Odej Kao. Der SFB „FONDA“ will diese Lücke schließen und Techniken, Verfahren und Werkzeuge erforschen, die eine Steigerung der Produktivität von Wissenschaftler*innen bei der Erstellung und Anwendung von Datenanalyseworkflows ermöglichen.
Weitere Informationen erteilen Ihnen gern:
Prof. Dr. Odej Kao
TU Berlin
Fachgebiet Distributed and Operating Systems
Tel.: 030 314-25154
E-Mail: odej.kao@tu-berlin.de
Prof. Dr. Volker Markl
TU Berlin
Fachgebiet Database Systems and Information Management
Tel.: 030 314-25553
E-Mail: volker.markl@tu-berlin.de
Criteria of this press release:
Journalists, Scientists and scholars
Information technology
transregional, national
Research projects, Science policy
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).