idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
01/27/2022 09:32

Digitale Werkzeuge für effektive Viren-Forschung

Dr. Peter Saueressig Kommunikation
Heidelberger Institut für Theoretische Studien gGmbH

    Die digitale Infrastruktur „Serratus“ ermöglicht Forschenden, öffentliche Sequenzdatenbanken effektiv nach biologischen Viren zu durchsuchen. Bislang konnten über 130.000 neue RNA-Viren identifiziert werden – von Corona-Viren über Verwandte des Hepatitis-D-Virus bis zu Bakteriophagen. Das internationale Team hinter dem Projekt, an dem auch Forschende des Heidelberger Instituts für Theoretische Studien und des Max-Planck-Instituts für Biologie beteiligt sind, berichtet über die Ergebnisse im Fachjournal „Nature.“

    Die Vielfalt der Viren auf unserem Planeten ist sprichwörtlich unfassbar, denn die Wissenschaft kennt bislang nur einen Bruchteil der existierenden Viren. Welch verheerende Folgen neu auftretende Viruserkrankungen für die Menschheit haben, hat die derzeitige SARS-CoV2-Pandemie gezeigt. Daher ist es wichtig, die Diversität der global vorkommenden Viren mit Mitteln der Informatik zu katalogisieren und für die Wissenschaft nutzbar zu machen.

    Zufallsfunde im Regenwald

    Öffentliche Sequenzdatenbanken sind zu einem riesigen Speicher für genetische Daten geworden, den Forschende aus aller Welt befüllen. Diese Daten stammen von biologischen Forschungsgruppen, die Sequenzdaten erzeugen, sei es zur Untersuchung des Bodenmikrobioms des Amazonas-Regenwaldes oder zur Erforschung der Ausbreitung von Krankheiten wie dem SARS-CoV-2-Virus. In der Regel werden bei solchen Studien genetische Sequenzdaten nicht nur von dem Organismus gewonnen, der untersucht werden sollte, sondern auch von anderen Organismen, deren DNA zufällig in der Probe enthalten ist. Solche zufälligen Daten können für andere Forschende besonders interessant sein, da diese Daten nicht im Mittelpunkt der ursprünglichen Studie stehen und daher in der Regel ignoriert werden. Sie sind aber dennoch in den öffentlichen Datenbanken hinterlegt.

    Eine Infrastruktur für effiziente Suche

    Diesen verborgenen Schatz zu heben bedeutet, dass die Forschenden in ungeheuer großen und verteilten Datenmengen suchen müssten. Denn in den frei zugänglichen öffentlichen Datenbanken liegen Sequenzdaten in der Größenordnung von Petabytes (d.h. Millionen von Gigabytes). Die Forschenden im internationalen Serratus-Projekt haben hierfür eine Cloud-basierte Infrastruktur entwickelt. Serratus ist eine open source Cloud-Computing-Infrastruktur, die den Sequenzabgleich im Petabyte-Maßstab ermöglicht.

    „Unsere Infrastruktur ermöglicht eine effiziente Suche im Sequence Read Archive, einem der beliebtesten öffentlichen Sequenzspeicher“, erläutert Pierre Barbera, der als Mitglied der Computational Molecular Evolution Gruppe am Heidelberger Institut für Theoretische Studien (HITS) Ko-Autor der Studie war. Er erstellte Software zur Berechnung und Analyse der phylogenetischen Stammbäume aller untersuchten Spezies. Am Projekt beteiligt sind auch Forschende am Max-Planck-Institut für Biologie in Tübingen. Sie brachten ihre Biocomputing-Software „DIAMOND“ in das Projekt ein, die wie eine Internet-Suchmaschine in wenigen Stunden Übereinstimmungen von Proteinbausteinen sequenzierter Lebewesen auflistet. Bis vor kurzem war für solche Berechnungen selbst mit Hochleistungsrechnern und dem bisherigen Goldstandard BLAST noch ein Zeitraum von Monaten notwendig. Die erweiterte Version „DIAMOND v2“ wird in Zusammenarbeit mit der Max Planck Computing and Data Facility in Garching entwickelt.

    Zahl der neu entdeckten Viren verzehnfacht

    Mit den entwickelten Werkzeugen konnten die Forscher über 130.000 neue RNA-Viren identifizieren, was eine Verzehnfachung der bekannten Virenspezies bedeutet. Darunter befanden sich bisher unbekannte Mitglieder der Coronavirus-Familie, die eng mit dem SARS-CoV-2-Virus verwandt sind, sowie neuartige Viren, die mit dem Hepatitis-D-Virus verwandt sind, und neuartige Bakteriophagen, d. h. Viren, die speziell gegen Bakterien gerichtet sind.

    Neben den beiden deutschen Teams waren Forschende vom Institut Pasteur (Paris, Frankreich), der Universität St. Petersburg (Russland), der Universität Valencia, der University of British Columbia (Kanada) und der UC Berkeley (USA) an der Studie beteiligt. Erstautor ist der Bioinformatiker Artem Babaian (University of Cambridge, Großbritannien).
    Die Ergebnisse wurden jetzt im Fachjournal „Nature“ veröffentlicht. Die Daten aus dem Projekt sind öffentlich zugänglich und finden sich auch auf der Website https://serratus.io, so dass Forschende jederzeit darauf zugreifen und sie weiter untersuchen können.

    Titel der Publikation:
    Edgar, R.C., Taylor, J., Lin, V. et al. Petabase-scale sequence alignment catalyses viral discovery. Nature, 26 January 2022.
    DOI: 10.1038/s41586-021-04332-2 / https://www.nature.com/articles/s41586-021-04332-2

    Medienkontakt:
    Dr. Peter Saueressig
    Head of Communications
    Heidelberger Institut für Theoretische Studien (HITS)
    Tel: +49-6221-533-245
    peter.saueressig@h-its.org
    http://www.h-its.org


    Contact for scientific information:

    Dr. Pierre Barbera
    Heidelberger Institut für Theoretische Studien (HITS)
    pierre.barbera@h-its.org


    Original publication:

    Edgar, R.C., Taylor, J., Lin, V. et al. Petabase-scale sequence alignment catalyses viral discovery. Nature, 26 January 2022.
    DOI: 10.1038/s41586-021-04332-2 / https://www.nature.com/articles/s41586-021-04332-2


    More information:

    https://www.h-its.org/de/2022/01/27/serratus-nature/ HITS-Pressemitteilung
    https://serratus.io/ Serratus-Website
    https://github.com/bbuchfink/diamond DIAMOND-Software


    Images

    Criteria of this press release:
    Journalists
    Biology, Information technology, Medicine
    transregional, national
    Research projects, Research results
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).