idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
04/07/2021 18:00

Schnellerer Sequenzabgleich für den gesamten Baum des Lebens

Sophia Jahns Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für Entwicklungsbiologie

    Eine Sequenzierungs-Suchmaschine für eine neue Ära von Conservation Genomics

    Ein Forscherteam vom Max-Planck-Institut für Entwicklungsbiologie in Tübingen und der Max Planck Computing and Data Facility in Garching entwickelt neue Suchmöglichkeiten, die Vergleiche des biochemischen Aufbaus verschiedener Arten in unterschiedlichen Zweigen des Baums des Lebens ermöglichen werden. Die Kombination von Präzision und Geschwindigkeit dieser Techniken war bislang unerreicht. Die Ergebnisse der Forscher erscheinen am 7. April in Nature Methods.

    Menschen haben viele Nukleotidsequenzen in ihren Genen mit anderen Arten gemeinsam; mit Schweinen ganz besonders viele, aber auch mit Mäusen und sogar Bananen. Dementsprechend können manche körpereigenen Proteine – Ketten von Aminosäuren, die gemäß dem Bauplan der Gene zusammengesetzt werden – ebenfalls mit Proteinen anderer Arten übereinstimmen oder ihnen ähneln. Diese Ähnlichkeiten können manchmal auf eine gemeinsame Abstammung hinweisen oder aber einfach dadurch entstanden sein, dass ein Merkmal oder eine molekulare Funktion zufällig für zwei Arten evolutionär nötig wurde.

    Den Goldstandard der vergleichenden Genomik übertreffen

    Doch herauszufinden, was man mit einem Schwein oder einer Banane gemeinsam hat, kann natürlich eine monumentale Aufgabe sein; das Durchsuchen einer Datenbank mit allen Informationen über den Menschen, das Schwein und die Banane ist sehr rechenintensiv. Forschende erwarten, dass die Genome von mehr als 1,5 Millionen Eukaryoten – und das beinhaltet alle Tiere, Pflanzen und Pilze – innerhalb des nächsten Jahrzehnts sequenziert werden. „Bereits jetzt, wo wir nur ein paar Hunderttausend Genome genau kennen (von denen die meisten klein sind und zu Bakterien oder Viren gehören), geht es um Datenbanken mit bis zu 270 Millionen Sequenzen. Die meisten derzeit verwendeten Suchmechanismen wären einfach impraktikabel, weil sie zu lange brauchten, um Daten von dem in naher Zukunft erwarteten Ausmaß zu analysieren,“ erklärt Hajk-Georg Drost, Leiter der Gruppe Computational Biology in der Abteilung Molekularbiologie des Max-Planck-Instituts für Entwicklungsbiologie in Tübingen. „Lange war der Goldstandard für derartige Analysen ein Werkzeug namens BLAST,“ erläutert Drost. „Wenn man nachvollziehen wollte, wie ein Protein dank natürlicher Auslese erhalten wurde oder wie es sich in unterschiedlichen phylogenetischen Linien entwickelt hat, gab BLAST die besten Treffer für Anfragen dieser Größenordnung. Es ist aber absehbar, dass die Datenbanken für umfassende BLAST-Suchen zu groß werden.“

    Die Nadel im Heuhaufen finden – aber schnell!

    Im Kern geht es um das Problem, einen Kompromiss zwischen Geschwindigkeit und Sensitivität finden zu müssen: Genau wie man bei der Ostereiersuche die kleineren oder besser versteckten Eier übersieht, wenn man nur schnell sucht, bringt eine beschleunigte Suche nach Ähnlichkeiten von Proteinsequenzen üblicherweise den Nachteil mit sich, dass einem manche der weniger offensichtlichen Treffer entgehen.
    „Deswegen haben wir vor einiger Zeit angefangen, den DIAMOND-Algorithmus zu entwickeln, in der Hoffnung, dass wir dadurch mit großen Datenmengen in überschaubarer Zeit umgehen können,“ erinnert sich Benjamin Buchfink, der in Drosts Forschergruppe als Doktorand mitarbeitet und seit 2013 mit der Entwicklung von DIAMOND befasst ist. „Das war auch der Fall; aber die Kehrseite war, dass uns manche entferntere evolutionäre Beziehungen entgingen.“ Anders gesagt: Während das ursprüngliche DIAMOND vielleicht sensitiv genug ist, um eine gegebene menschliche Aminosäuresequenz bei einem Affen aufzuspüren, ist es gegebenenfalls blind für eine ähnliche Sequenz in einer evolutionär weiter entfernten Art.

    Ein leistungsstarkes Werkzeug für künftige Forschung

    Während der alte DIAMOND-Suchalgorithmus nützlich für die Untersuchung von direkt aus Umweltproben extrahiertem genetischem Material war, benötigen andere Forschungsziele sensitivere Werkzeuge. Das Forscherteam aus Tübingen und Garching konnte nun DIAMOND so abändern und erweitern, dass es unter Beibehaltung der überlegenen Geschwindigkeit die Sensitivität von BLAST erreicht: mit dem verbesserten DIAMOND werden vergleichende Genomikuntersuchungen mit der Genauigkeit von BLAST, aber 80- bis 360-facher Geschwindigkeit möglich sein. „Außerdem ermöglicht DIAMOND nun, Sequenzabgleiche mit der Sensitivität von BLAST auf einem Supercomputer, einem Hochleistungs-Computercluster oder in der Cloud wirklich massivparallel durchzuführen,“ ergänzt Klaus Reuter von der Max Planck Computing and Data Facility. „Damit sind Sequenzabgleiche in extrem großem Maßstab in überschaubarer Zeit möglich.“
    Manche Suchanfragen, für die andere Werkzeuge zwei Monate auf einem Supercomputer brauchen würden, sind mit der neuen DIAMOND-Infrastruktur nun in einigen Stunden möglich. „In Hinblick auf das exponentielle Wachstum der Anzahl verfügbarer Genome ist die Geschwindigkeit und Genauigkeit von DIAMOND genau das, was die moderne Genomik braucht: Damit können wir von der Gesamtheit aller Genome lernen, statt uns durch den Mangel an sensitiven Suchkapazitäten auf nur eine kleine Zahl von Arten beschränken zu lassen,“ prognostiziert Drost. Das Team ist daher überzeugt, dass die Vorteile von DIAMOND sich in den nächsten Jahren vollumfänglich zeigen werden.


    Contact for scientific information:

    Dr. Hajk-Georg Drost
    Max-Planck-Institut für Entwicklungsbiologie
    Abteilung Molekularbiologie
    Max-Planck-Ring 5
    72076 Tübingen
    Deutschland

    hajk-georg.drost@tuebingen.mpg.de
    +49 7071 601-444


    Original publication:

    Sensitive tree-of-life scale protein alignments using DIAMOND. Nature Methods, Apr. 7 2021, DOI: 10.1038/s41592-021-01101-x


    More information:

    https://dx.doi.org/10.1038/s41592-021-01101-x


    Images

    Criteria of this press release:
    Journalists, all interested persons
    Biology, Information technology
    transregional, national
    Research results, Scientific Publications
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).